Jueves, 28 de octubre de 2021

La próxima movida de Google en materia de IA: la enseñanza de lenguas extranjeras

18/06/2021
Sarah Krouse

El mes pasado, el CEO de Google, Sundar Pichai, presentó un modelo de inteligencia artificial que, según él, permitirá a las personas mantener conversaciones abiertas con la tecnología. Pero los empleados actuales y antiguos que han trabajado con el modelo lingüístico dicen que permitir un diálogo coherente, fluido y preciso entre los humanos y la tecnología sigue siendo una tarea difícil.

Por ello, Google está dando un paso más en la IA conversacional al prepararse para enseñar lenguas extranjeras a través de la Búsqueda de Google, según personas involucradas en el trabajo. El proyecto, denominado internamente Tivoli, surgió de su unidad de investigación de Google y es probable que se ponga en marcha a finales de este año.

La conclusión

Mientras se acelera la carrera por desarrollar una inteligencia artificial capaz de imitar las conversaciones humanas, Google está trabajando en un problema más sencillo pero relacionado con él para intentar mantener su posición en este campo.

Los responsables de Google también están discutiendo formas de añadir eventualmente la funcionalidad a sus líneas de productos de asistente de voz y YouTube. En YouTube, por ejemplo, podría generar concursos de idiomas en los que los espectadores se graban a sí mismos después de ver un vídeo y la IA ofrece una evaluación de su rendimiento.

Un portavoz de Google declinó hacer comentarios

La enseñanza de lenguas extranjeras permite a Google hacer que la IA conversacional sea más fluida, más allá de los intercambios tontos, en un caso de uso práctico pero de bajo riesgo, dijeron las personas. Es poco probable que el uso de un tiempo o una frase equivocados cause un daño grave a los usuarios.

Los investigadores de la IA llevan décadas trabajando para fomentar un diálogo entre ordenadores y humanos que parezca real, recoja los matices de la forma de comunicarse de las personas y simplifique las tareas. Esta tecnología tan ambiciosa ha aparecido en películas como Her, en la que un hombre se comunica con un asistente virtual y se enamora de él.

En una gran apuesta por que la gente quiera acceder a la tecnología en el futuro con su voz, no con sus dedos, Google, Amazon, Apple, Microsoft y Samsung han desarrollado sus propios asistentes virtuales. En la actualidad, están integrados en teléfonos inteligentes, altavoces, mandos de televisión y cámaras. Algunos asistentes, como el Asistente de Google, Bixby de Samsung y Alexa de Amazon, impulsan coches y electrodomésticos como frigoríficos, hornos y lavadoras inteligentes.

Pero la mayoría de esos asistentes virtuales solo pueden completar una tarea a la vez, a menos que los usuarios se esfuercen por programar atajos y otras secuencias. De lo contrario, las solicitudes complejas y las preguntas de seguimiento suelen confundir a los asistentes. También les cuesta reflejar la seriedad o el tono de las peticiones y captar su contexto.

Tema de conversación

Google lleva años ocupando una posición de liderazgo en el campo de la IA, atrayendo constantemente a los mejores talentos del sector para iniciativas que van desde Google Brain hasta DeepMind. LaMDA comenzó en la unidad de investigación de Google Brain y es el modelo de lenguaje que impulsará la nueva herramienta de búsqueda.

Pero Google se enfrenta a la importante competencia de otras empresas tecnológicas, como OpenAI, un equipo respaldado por Microsoft que ha publicado importantes avances, como el GPT-3. Una amplia gama de empresas está utilizando el modelo ‒que devuelve las respuestas a las consultas en lenguaje natural‒ para desarrollar herramientas de IA conversacional.

Los usuarios de Google utilizan habitualmente la búsqueda de Google para traducir idiomas. Esto, unido al dominio de Google en las búsquedas, hizo que algunos ejecutivos temieran que una función de enseñanza de lenguas extranjeras pudiera crear un nuevo problema antimonopolio para la empresa, dijo una de las personas citadas.

Empleados actuales y antiguos que trabajaban en el proyecto dijeron que esperaban que la creación de intercambios más fluidos a través de la IA conversacional para los estudiantes de idiomas facilitaría el aprendizaje de nuevas lenguas y ampliaría el potencial de ingresos de los estudiantes al habilitarlos a obtener nuevos puestos de trabajo.

El desarrollo de Tivoli comenzó hace unos dos años en Google utilizando un modelo de conversación neuronal anterior, Meena, que desde entonces ha evolucionado hasta convertirse en LaMDA. (Google le cambió el nombre en parte por la preocupación interna de que su nombre tenía demasiado género y podía hacer que los usuarios lo asociaran con una persona).

LaMDA puede permitir una conversación fluida y coherente, aunque Pichai reconoció en la conferencia de desarrolladores de Google que la investigación aún está en sus primeras fases y que la tecnología tiene limitaciones. En un ejemplo, la tecnología LaMDA hablaba desde la perspectiva de un avión de papel, respondiendo a preguntas sobre cómo era ser lanzado al aire y cómo era el mundo desde arriba.

En otro ejemplo, Pichai pidió a un reproductor de vídeo que avanzara a una parte concreta de una película describiendo la escena.

"No lo hace todo bien. A veces puede dar respuestas sin sentido", dijo Pichai en la conferencia. Además, LaMDA fue entrenado sólo con texto, no con imágenes, audio y otros medios que la gente utiliza para comunicarse.

Los avances de la IA y los modelos lingüísticos han avanzado a trompicones, en parte debido a la potencia de cálculo necesaria para entrenar grandes modelos y a la complejidad del modo en que las personas interactúan entre sí cuando hablan, escriben y comparten multimedia, afirman los investigadores.

"Mantener conversaciones es lo que hacemos. Conseguir un sistema que sea tan bueno como un humano medio es un listón muy alto", afirma Clément Delangue, cofundador de la plataforma de aprendizaje automático Hugging Face, que ayuda a las empresas de IA a crear modelos de procesamiento del lenguaje natural.

Mejorar las conversaciones entre los humanos y la tecnología, como los asistentes digitales, también está cargado de complejidad ética, dicen los investigadores responsables de la IA, porque es probable que muchos humanos tomen como un hecho la información que las herramientas digitales les dan en respuesta a las consultas. Además, los propios modelos son tan buenos como los datos que reciben, que suelen proceder de fuentes de Internet como foros de debate, artículos de noticias y otros sitios. Esto significa que los sesgos e inexactitudes humanas están presentes.

OpenAI ha sido criticada por generar contenidos intolerantes y ofensivos, por ejemplo. Una portavoz de OpenAI dijo que tiene equipos dedicados a la seguridad y la política y que ha desarrollado un proceso que puede mejorar el comportamiento del modelo lingüístico y mitigar los resultados perjudiciales.

Además, Google ha tenido que hacer frente a las acusaciones de tomar represalias contra los trabajadores que plantean la preocupación de que no se está tomando la ética de la IA lo suficientemente en serio.

La unidad de IA de Google ha sufrido una serie de salidas y cambios de liderazgo desde el sonado despido a finales del año pasado del investigador de IA Timnit Gebru tras una disputa sobre un trabajo de investigación.

Empleados y compañeros de investigación criticaron el despido de Gebru, un investigador negro que había indagado en la ética de la IA y los prejuicios en la tecnología, y Pichai se disculpó por la forma en que la empresa había manejado la situación.

Emily M. Bender, profesora del departamento de lingüística de la Universidad de Washington, dijo que existe el riesgo de que los consumidores crean que la IA conversacional siempre dará respuestas precisas.

Bender, que coescribió el documento que está en el centro del conflicto de Gebru con Google, dijo que también le preocupa que la empresa haya priorizado la capacidad de LaMDA de generar un lenguaje sensato y coherente por encima de su precisión fáctica.

"Si el bot de chat se enmarca como algo explícitamente ficticio y para divertirse, entonces seguro que es un ordenamiento interesante o correcto de los objetivos. Pero si está destinado a participar en algo como la búsqueda o a responder a las preguntas genuinas de la gente sobre la información, entonces lo factual tiene que ser lo primero."

__________________________________________________

Sarah Krouse (@bysarahkrouse) es reportera de tecnología para The Information. Puede ponerse en contacto con ella a través de Signal en el +1 (347) 436-5237.