{"id":1786,"date":"2019-05-19T19:58:43","date_gmt":"2019-05-19T19:58:43","guid":{"rendered":"http:\/\/robots-argentina.com.ar\/didactica\/?p=1786"},"modified":"2019-05-19T20:04:58","modified_gmt":"2019-05-19T20:04:58","slug":"translatotron-el-primer-traductor-simultaneo","status":"publish","type":"post","link":"https:\/\/robots-argentina.com.ar\/didactica\/translatotron-el-primer-traductor-simultaneo\/","title":{"rendered":"Translatotron, el primer traductor simult\u00e1neo"},"content":{"rendered":"

La tecnolog\u00eda, elemento indispensable para romper las barreras, tambi\u00e9n idiom\u00e1ticas. La evoluci\u00f3n de los servicios basados en Inteligencia Artificial supera nuevos desaf\u00edos. Varias d\u00e9cadas despu\u00e9s de desarrollar los primeros \u00abconvertidores\u00bb de audio, Google ha sido capaz de desarrollar un software que puede traducir la voz humana <\/strong>-de un idioma- a otro directamente sin necesidad de realizar ninguna conversi\u00f3n a texto.<\/p>\n

Su nombre, sin embargo, suena a pel\u00edcula de ciencia-ficci\u00f3n; Translatotron. No oculta sus intenciones porque est\u00e1 concebido para mejorar la relaci\u00f3n entre el humano y la m\u00e1quina, pero, como extensi\u00f3n, mejorar las comunicaciones entre personas igualando as\u00ed sus condiciones (y limitaciones) idiom\u00e1ticas. Un sistema que, en un futuro, puede dar pie a traductores autom\u00e1ticos como si se tratase de un tel\u00e9fono m\u00f3vil y que supone un nuevo paso en la traducci\u00f3n simult\u00e1nea.<\/strong><\/p>\n

Esta herramienta combina diferentes tecnolog\u00edas ya desarrolladas que empiezan, adem\u00e1s, a formar parte de la jungla electr\u00f3nica en la que reside el usuario. Tradicionalmente, estos sistemas eran independientes. Ahora, al separar la conversaci\u00f3n en tres escenarios se pueden combinar<\/strong>. As\u00ed, el funcionamiento de Translatotron se basa en un solo proceso: en lugar de dividirlo en distintas fases como sucede en los sistemas de traducci\u00f3n actuales, que se apoyan en mecanismos de s\u00edntesis de voz a texto: reconocimiento de voz autom\u00e1tico que transcriben la voz de origen como texto, los sistemas de traducci\u00f3n autom\u00e1tica que convierten el texto transcrito al idioma de destino<\/strong> y, por \u00faltimo, la capacidad de sintetizar texto y voz para generar audio. Es decir, una traducci\u00f3n simult\u00e1nea y sin apenas intermediarios, aunque no es perfecto: cada uno de estos pasos va arrastrando peque\u00f1os errores. <\/p>\n

Google va m\u00e1s all\u00e1; ahora ha ideado el mecanismo para traducir de manera autom\u00e1tica y realizar una traducci\u00f3n de voz a voz, con resultados muy precisos e, incluso, intentar \u00abimitar\u00bb el habla de la persona. \u00abEste sistema evita dividir la traducci\u00f3n en etapas separadas,<\/strong> con lo que aporta algunas ventajas sobre otras soluciones, incluido una mayor velocidad y evitando errores de composici\u00f3n entre el reconocimiento y la traducci\u00f3n, lo que facilita la retenci\u00f3n de la voz del hablante original despu\u00e9s de la traducci\u00f3n y un mejor manejo de palabras que no necesitan ser traducidas, por ejemplo, nombres propios\u00bb, se\u00f1alan en un comunicado fuentes del gigante de internet.<\/p>\n

El proyecto, todav\u00eda en fase de pruebas<\/strong>, se basa en una red de secuencia a secuencia que procesa el audio de origen en espectrogramas -desgloses detallados de frecuencias del audio- y lo trata como un c\u00f3digo de entrada, generando otros nuevos modelos de audio con contenido traducido para, posteriormente, convertir en idioma de destino. La gran aportaci\u00f3n es que este proceso retiene el car\u00e1cter de la voz original, por lo que la traducci\u00f3n,<\/strong> al final, no se realiza de forma rob\u00f3tica y enlatada sino intentando conservar algunos detalles del timbre de la voz, su color, la cadena e, incluso, el tono de la frase original. <\/p>\n

As\u00ed, puede a\u00f1adirse un mecanismo adicional que aprende las caracter\u00edsticas del habla de una persona y que las codifica para lograr mantener su tono para utilizarlo posteriormente en la sintetizaci\u00f3n de la traducci\u00f3n de voz. En todo el proceso, la Inteligencia Artificial de Google utiliza objetivos multitarea para predecir los movimientos de la fuente, al mismo tiempo que genera los espectogramas de la traducci\u00f3n.<\/strong>La compa\u00f1\u00eda ha expuesto, adem\u00e1s, algunos logros alcanzados por este ingenio a trav\u00e9s de varios clips de audio.<\/p>\n