Translatotron, el primer traductor simultáneo

La tecnología, elemento indispensable para romper las barreras, también idiomáticas. La evolución de los servicios basados en Inteligencia Artificial supera nuevos desafíos. Varias décadas después de desarrollar los primeros «convertidores» de audio, Google ha sido capaz de desarrollar un software que puede traducir la voz humana -de un idioma- a otro directamente sin necesidad de realizar ninguna conversión a texto.

Su nombre, sin embargo, suena a película de ciencia-ficción; Translatotron. No oculta sus intenciones porque está concebido para mejorar la relación entre el humano y la máquina, pero, como extensión, mejorar las comunicaciones entre personas igualando así sus condiciones (y limitaciones) idiomáticas. Un sistema que, en un futuro, puede dar pie a traductores automáticos como si se tratase de un teléfono móvil y que supone un nuevo paso en la traducción simultánea.


Esta herramienta combina diferentes tecnologías ya desarrolladas que empiezan, además, a formar parte de la jungla electrónica en la que reside el usuario. Tradicionalmente, estos sistemas eran independientes. Ahora, al separar la conversación en tres escenarios se pueden combinar. Así, el funcionamiento de Translatotron se basa en un solo proceso: en lugar de dividirlo en distintas fases como sucede en los sistemas de traducción actuales, que se apoyan en mecanismos de síntesis de voz a texto: reconocimiento de voz automático que transcriben la voz de origen como texto, los sistemas de traducción automática que convierten el texto transcrito al idioma de destino y, por último, la capacidad de sintetizar texto y voz para generar audio. Es decir, una traducción simultánea y sin apenas intermediarios, aunque no es perfecto: cada uno de estos pasos va arrastrando pequeños errores.

Google va más allá; ahora ha ideado el mecanismo para traducir de manera automática y realizar una traducción de voz a voz, con resultados muy precisos e, incluso, intentar «imitar» el habla de la persona. «Este sistema evita dividir la traducción en etapas separadas, con lo que aporta algunas ventajas sobre otras soluciones, incluido una mayor velocidad y evitando errores de composición entre el reconocimiento y la traducción, lo que facilita la retención de la voz del hablante original después de la traducción y un mejor manejo de palabras que no necesitan ser traducidas, por ejemplo, nombres propios», señalan en un comunicado fuentes del gigante de internet.

El proyecto, todavía en fase de pruebas, se basa en una red de secuencia a secuencia que procesa el audio de origen en espectrogramas -desgloses detallados de frecuencias del audio- y lo trata como un código de entrada, generando otros nuevos modelos de audio con contenido traducido para, posteriormente, convertir en idioma de destino. La gran aportación es que este proceso retiene el carácter de la voz original, por lo que la traducción, al final, no se realiza de forma robótica y enlatada sino intentando conservar algunos detalles del timbre de la voz, su color, la cadena e, incluso, el tono de la frase original.

Así, puede añadirse un mecanismo adicional que aprende las características del habla de una persona y que las codifica para lograr mantener su tono para utilizarlo posteriormente en la sintetización de la traducción de voz. En todo el proceso, la Inteligencia Artificial de Google utiliza objetivos multitarea para predecir los movimientos de la fuente, al mismo tiempo que genera los espectogramas de la traducción.La compañía ha expuesto, además, algunos logros alcanzados por este ingenio a través de varios clips de audio.