twitter account

Nueva herramienta con IA de Google que traduce de voz a voz, sin pasar por texto

11/12/2023
Pepu Ricca

La inteligencia artificial de Google nos está dejando muchísimas utilidades que, además, inciden en diferentes campos. Lo más reciente es la llegada de Gemini, en tres variantes diferenciadas, que potenciará a Google Bard y ya está disponible en el Pixel 8 Pro (sólo en inglés, por el momento).

Pero el gigante de las búsquedas tiene alguna que otra aplicación más con las que aprovechar las bondades de la IA. Entra en la ecuación MusicLM para crear música, o Google Translatotron, que precisamente ahora llega a su tercera versión. Te contamos todo lo que debes saber sobre este avanzado traductor, cómo funciona y qué lo diferencia.

Traduce la voz de un idioma a otro, sin necesidad de convertirla a texto

Esta tecnología basada en inteligencia artificial irrumpió en 2019, cuando se liberó la primera versión. En aquel entonces, ya sorprendió por su capacidad para traducir conversaciones de voz a voz, es decir, es un modelo que no necesita trasladar la información a texto para traducirla (como hacen los actuales traductores). Sin embargo, como comentaron los compañeros de Xataka, aún tenía un gran margen de mejora. De hecho, dos años después, con el despliegue de Translatotron 2 (julio de 2021) vimos como mejoraba en apartados como la calidad en las traducciones, o la naturalidad del habla. Ahora, vuelve en un mejor estado de forma, y se posiciona —según sus propios creadores— como el "primer modelo de extremo a extremo totalmente no supervisado para la traducción directa de voz a voz".

Para comprender cómo funciona, debemos explicar cómo lo hacen los sistemas estándar de traducción de voz. Estos, añaden hasta cuatro pasos, enumerados a continuación:

  • Reconocimiento automático del habla
  • Transcripción de voz a texto
  • Traducción automática
  • Conversión de texto a voz

Pues bien, Google Translatotron es capaz de reducir este habitual procedimiento a la mitad. No necesita transcribir la voz de entrada a texto, y por lo tanto, tampoco debe convertirla de vuelta al final. Esto es lo que hace especial a este modelo IA de Google, cuya tercera iteración mejora las prestaciones de sus predecesoras.

Una de las novedades viene del lado de la arquitectura S2ST (modelo de traducción de voz a voz), capaz de "aprender" utilizando únicamente datos en una sola lengua (datos monolingües). ¿Qué beneficios tiene el avance de esta arquitectura? Eso es lo que nos aclara Eliya Nachmani, parte del equipo de Google Research:

"Este método abre la puerta no sólo a la traducción entre más pares de idiomas, sino también a la traducción de los atributos del habla no textuales, como las pausas, la velocidad del habla y la identidad del hablante"

La traducción de voz es uno de los aspectos que aglutina más competencia en la actualidad, sobre todo desde la irrupción de la inteligencia artificial. Google Translatatron se enfrenta a Seamless, el modelo de IA de Meta que es capaz de traducir en tiempo real, manteniendo incluso el estilo vocal.

Sin embargo, cada uno tiene en su naturaleza su principal reclamo: mientras que Google destaca por la omisión de la traducción a texto, Meta presume del reconocimiento automático de voz y de las capacidades para trasladar el habla a texto.

Sea como sea, conocemos el proceso de entrenamiento por el que ha pasado Translatotron: una primera parte centrada en la codificación de la entrada (el habla), y una segunda parte dedicada a traducirla (mediante retrotraducción). Aunque si queremos conocerlo en profundidad, podemos echar un vistazo al artículo publicado este mismo año por científicos de la división Google Research.

El resultado, un éxito total si atendemos a las palabras de los autores: "Translatotron 3 supera con creces al sistema de referencia en todos los aspectos que medimos: calidad de la traducción, similitud del hablante y calidad del habla. Destacó especialmente en el corpus conversacional". Por si fuera poco, el modelo es capaz de lograr una naturalidad en el habla "similar a la de las muestras de audio reales".

Estos son los avances de Google en este campo, que ya prepara un futuro con Translatotron 4. La próxima versión subiría la apuesta, añadiendo compatibilidad con más idiomas, incluso en aquellos con datos con pocos recursos. Por el momento, seguiremos atentos la actualidad de este modelo, que quizá debute en algún conocido servicio de la compañía como ha sucedido con Bard y el Asistente de Google.