Domingo, 17 de enero de 2021

Investigadora española prepara un “esperanto matemático" para que las máquinas entiendan lenguas minoritarias

24/11/2020
Carlos del Castillo / @cdelcastillom

Investigadora Marta R. Costa-jussá de la Universidad Politécnica de Catalunya

En el mundo existen unas 6.500 lenguas diferentes, pero los traductores automáticos basados en inteligencia artificial apenas pueden operar entre un puñado de ellas. El que reconoce un mayor número es el de Google, que admite algo más de un centenar (108 en el momento de redacción de esta información). ¿Por qué no llega a los demás? Principalmente, porque no tiene datos para aprender a hacerlo.

Los sistemas basados en algoritmos de inteligencia artificial necesitan datos de los que aprender, y en el caso de los traductores automáticos, utilizan la información disponible en Internet para funcionar. Por ejemplo, la web del Parlamento Europeo es la inmejorable base de datos de traducción entre lenguas europeas, ya que todos los reglamentos y directivas comunitarias se transcriben a los idiomas oficiales de los 27 países miembros de la UE. Eso supone miles de documentos de los que los algoritmos pueden extraer ejemplos sobre cómo se han traducido esas frases y expresiones anteriormente entre esas lenguas.

A mayor volumen de datos, mejores traducciones. ¿Pero qué pasa cuando esos datos no están disponibles, porque ese bagaje escrito no está digitalizado o es muy limitado? "Es muy fácil para un traductor automático traducir entre inglés y castellano porque hay muchos ejemplos, pero cuando quieres traducir entre otros sobre los que tienes muchos menos recursos, como checo y euskera por ejemplo, es mucho más complicado", explica Marta R. Costa-jussá, investigadora de la Universitat Politècnica de Catalunya.

La situación hace que los idiomas más hablados cada vez tengan más recursos para traducir, pero, a la vez, va dejando atrás a aquellos minoritarios. La idea de esta investigadora para solucionarlo es crear un "esperanto matemático", una "representación universal del lenguaje" pensada para máquinas. El objetivo es que no haga falta que los traductores automáticos cuenten con ejemplos del mismo texto en dos lenguas concretas para aprender a traducir entre ellas.

El proyecto recibe el nombre de LUNAR (Lifelong Universal Language Representation), transcribe de voz a texto y ya cuenta con algunos prototipos. El Consejo Europeo de Investigación le ha concedido una subvención de 1,5 millones de euros de fondos comunitarios para que explore el potencial del "esperanto matemático" en los próximos cinco años. En el estudio participarán un total de 15 investigadores y comenzará en diciembre. El euskera fue uno de los idiomas citado como ejemplo por Costa-jussá en la competición por los fondos.

"El esperanto está pensado como un idioma sencillo que funcione como lengua universal. Aquí no estamos hablando de una lengua con reglas humanas, sino de crear una representación matemática y automática común a todos los idiomas", explica la investigadora. "Esa representación matemática ahora es diferente para cada lengua. Pero si conseguimos que sea la misma, podremos beneficiarnos mucho porque ya no importará tanto tener recursos de traducción entre todos los idiomas".