Google presentou o seu proxecto Parrotron, unha rede neural de extremo a extremo que transforma patróns de fala atípicos nunha linguaxe sintetizada e fluída, e que esta dirixido a persoas con discapacidades da fala, segundo informa a compañía no seu blogue corporativo.
O proxecto Parrotron está centrado na fala, e logra este proceso sen a necesidade de producir texto e omitindo o paso de recoñecemento de sinais da linguaxe (como o movemento dos beizos). O obxectivo é que esta tecnoloxía se poida empregar entre humanos e con motores de recoñecemento de linguaxe automática (ASR, polas súas siglas en inglés).
Esta ferramenta é parte do proxecto Euphonia, que, segundo Google, demostrou "que os modelos de recoñecemento de voz poden mellorarse significativamente para transcribir mellor unha variedade de fala atípica e disártrica". Google, así, partiu dos asistentes virtuais e servizos de recoñecemento de voz, ferramentas que estas persoas non poden usar debido ás súas dificultades.
Como explica Google nun comunicado publicado no seu blogue de Intelixencia artificial, Parrotron foi adestrado en dúas fases utilizando dúas recompilacións paralelas de pares de voz de entrada/saída.
Para iso, os investigadores construíron un modelo de conversión de voz a voz para a fala fluída estándar. Posteriormente personalizaron o modelo, adaptándoo aos patróns de voz atípicos da persoa con dificultades. Recorreron a datos paralelos derivados automaticamente cun sistema de síntese de voz a texto (TTS). Un sistema text-to-speech (TTS) converte a linguaxe de texto normal en fala; outros sistemas recrean a representación simbólica lingüística como transcricións fonéticas en fala. Unha das persoas máis famosas que usaron estes sistemas foi o ciéntífico Stephen Hawking.
Google desenvolveu varias probas do sistema Parrotron, entre elas, unha cun investigador e matemático de Google, Dimitri Kanevsky, de orixe rusa e profundamente xordo de pais con audición normal, e con Aubrie Lee, unha defensora da inclusión de discapacitados que ten unha distrofia muscular.
No caso de Dimitri, graváronse 15 horas de discurso, que se utilizaron para adaptar o modelo base aos matices específicos do seu discurso. O sistema Parrotron axudoulle a ser comprendido tanto polos investigadores como polo sistema ASR de Google por igual. O funcionamento do motor ASR de Google na saída de Parrotron reduciu significativamente a taxa de erro de palabra do 89% ao 32%.
Aubrie, pola súa banda, achegou 1,5 horas de gravacións de voz que foi clave para exemplificar o éxito esta tecnoloxía de voz.