twitter account

Investigadores de África rescatan “idiomas de bajos recursos” olvidados por tecnológicas

29/12/2021

El investigador Kola Tubosun en Lagos, Nigeria

Mientras el holandés y el swahili tienen millones de hablantes, el idioma europeo es acreedor de mayor presupuesto para el desarrollo de inteligencia artificial (IA), mientras los proyectos tecnológicos de IA no entienden las culturas africanas y hacen traducciones muy poco precisas.

Las computadoras se han vuelto increíblemente precisas para traducir palabras habladas en mensajes de texto y buscar enormes tesoros de información en busca de respuestas a preguntas complejas. Esto se aplica siempre y cuando hables inglés u otro de los idiomas dominantes del mundo.

Pero intenta hablar con tu teléfono en yoruba, igbo o cualquier idioma africano ampliamente difundido y encontrarás problemas técnicos que pueden dificultar el acceso a la información, el comercio, las comunicaciones personales, el servicio al cliente y otros beneficios de la economía  tecnológica global.

“Estamos llegando al punto en que, si una máquina no entiende tu idioma, será como si nunca hubiera existido”, dijo Vukosi Marivate, jefe de Ciencia de Datos de la Universidad de Pretoria en Sudáfrica, en un llamado a la acción antes de una reunión virtual de investigadores de inteligencia artificial del mundo en diciembre.

Los gigantes tecnológicos estadunidenses no tienen un gran historial de hacer que su tecnología lingüística funcione bien fuera de los mercados más ricos, un problema que también les ha dificultado detectar desinformación peligrosa en sus plataformas.

Marivate es parte de una coalición de investigadores africanos que han estado tratando de cambiar eso. Entre sus proyectos se encuentra uno que encontró que las herramientas de traducción automática no lograron interpretar adecuadamente las encuestas en línea sobre covid-19 del inglés a varios idiomas africanos.

“La mayoría de las personas quieren poder interactuar con el resto de la autopista de la información en su idioma local”, dijo Marivate en una entrevista. Es miembro fundador de Masakhane, un proyecto de investigación panafricano para mejorar la forma en que docenas de idiomas están representados en la rama de la IA conocida como procesamiento del lenguaje natural. Es el mayor de varios proyectos de tecnología lingüística de base que han aparecido desde los Andes hasta Sri Lanka. Los gigantes tecnológicos ofrecen sus productos en numerosos idiomas, pero no siempre prestan atención a los matices necesarios para que esas aplicaciones funcionen en el mundo real. Parte del problema es que simplemente no hay suficientes datos en línea en esos idiomas, incluidos términos científicos y médicos, para que los sistemas de IA aprendan de manera efectiva cómo comprenderlos mejor.

Google, por ejemplo, ofendió a los miembros de la comunidad yoruba hace varios años cuando su aplicación de idiomas tradujo mal a Esu, un dios embaucador benévolo, como el diablo. Los malentendidos lingüísticos de Facebook han estado vinculados a conflictos políticos en todo el mundo y su incapacidad para comprimir la desinformación dañina sobre las vacunas contra el covid-19. Los problemas de doblaje más mundanos se han convertido en memes en línea en broma.

Omolewa Adedipe se ha frustrado tratando de compartir sus pensamientos en Twitter en el idioma yoruba, porque sus tuits traducidos automáticamente generalmente terminan con diferentes significados. Una vez, el diseñador de contenido de 25 años tuiteó: “T'Ílù ò bà dùn, T'Ílù ò bà t’òrò. Èyin l'ęmò bí ę şe şé”, que significa: “Si la tierra (o el país, en este contexto) no es pacífico, o alegre, eres responsable de ello”. Twitter, sin embargo, logró terminar con la traducción: “Si no eres feliz, si no eres feliz”.

Para lenguas nigerianas complejas como el yoruba, esas marcas de acento, a menudo asociadas con tonos, son la diferencia en la comunicación. “Ogun”, por ejemplo, es una palabra yoruba que significa guerra, pero también puede significar un estado en Nigeria (Ògùn), dios del hierro (Ògún), puñalada (Ógún), veinte o propiedad (Ogún). “Parte del sesgo es deliberado dada nuestra historia”, dijo Marivate, quien ha dedicado parte de su investigación de IA a las lenguas sudafricanas de Xitsonga y Setswana habladas por sus familiares, así como a la práctica conversacional común de “cambiar código” entre idiomas.

“La historia del continente africano y en general en los países colonizados, es que cuando el idioma tuvo que ser traducido, se tradujo de una manera muy estrecha”, dijo. “No se te permitió escribir un texto general en ningún idioma porque al país colonizador podría estar preocupado de que la gente se comunique y escriba libros sobre insurrecciones o revoluciones. Pero permitirían textos religiosos”.

Google y Microsoft se encuentran entre las empresas que dicen que están tratando de mejorar la tecnología para los llamados lenguajes de “bajos recursos” para los que los sistemas de IA no tienen suficientes datos. Los informáticos de Meta, la compañía anteriormente conocida como Facebook, anunciaron en noviembre un gran avance en el camino hacia un “traductor universal” que podría interpretar varios idiomas a la vez y trabajar mejor con idiomas con menos recursos como el islandés o el hausa.

Ese es un paso importante, pero por el momento, solo las grandes empresas tecnológicas y los laboratorios de gran magnitud de IA en los países desarrollados pueden construir estos modelos, dijo David Ifeoluwa Adelani. Es investigador de la Universidad del Sarre en Alemania y otro miembro de Masakhane, que tiene la misión de fortalecer y estimular la investigación dirigida por África para abordar la tecnología “que no entiende nuestros nombres, nuestras culturas, nuestros lugares, nuestra historia”. Mejorar los sistemas requiere no solo más datos, sino una cuidadosa revisión humana de hablantes nativos que están insuficientemente representados en la fuerza laboral tecnológica global.

También es necesario un nivel de potencia informática al que puede ser difícil acceder para los investigadores independientes. El escritor y lingüista Kola Tubosun creó un diccionario multimedia para el idioma yoruba y también creó una máquina de texto a voz para el idioma. Ahora está trabajando en tecnologías similares de reconocimiento de voz para los otros dos idiomas principales de Nigeria, el hausa y el igbo, para ayudar a las personas que quieren escribir oraciones y pasajes cortos. “Nos estamos financiando a nosotros mismos”, dijo. “El objetivo es demostrar que estas cosas pueden ser rentables”. Tubosun lideró el equipo que creó la voz y el acento “inglés nigeriano” de Google, utilizados en herramientas como mapas. Pero dijo que sigue siendo difícil recaudar el dinero necesario para construir tecnología que pueda permitir a un agricultor utilizar una herramienta basada en dictado para seguir las tendencias del mercado o del clima.

Conquista de espacios en el universo digital 

En Ruanda, el ingeniero de software Remy Muhire está ayudando a construir un nuevo conjunto de datos de voz de código abierto para el idioma kinyarwanda, el involucra a muchos voluntarios grabándose leyendo artículos del periódico kinyarwanda y otros textos. “Son hablantes nativos. Entienden el idioma”, dijo Muhire, miembro de Mozilla, creador del navegador de Internet Firefox. Parte del proyecto implica una colaboración con una aplicación para teléfonos inteligentes apoyada por el gobierno que responde preguntas sobre covid-19. Para mejorar los sistemas de IA en varios idiomas africanos, los investigadores masakhane también están aprovechando fuentes de noticias de todo el continente, incluido el servicio Hausa de Voice of America y la transmisión de la BBC en igbo.

Cada vez más, la gente se une para desarrollar sus propios enfoques lingüísticos en lugar de esperar a que las instituciones de elite resuelvan los problemas, dijo Damián Blasi, quien investiga la diversidad lingüística en la Iniciativa de Ciencia de Datos de Harvard. Blasi fue coautor de un estudio reciente que analizó el desarrollo desigual de la tecnología del lenguaje en los más de 6000 mil idiomas del mundo. Por ejemplo, encontró que mientras que el holandés y el swahili tienen decenas de millones de hablantes, hay cientos de informes científicos sobre el procesamiento del lenguaje natural en el idioma de Europa Occidental y solo unos veinte en el de África Oriental.