Martes, 28 de septiembre de 2021

La comprensión del lenguaje natural es difícil para las redes neurales

18/07/2021
Ben Dickson @BenDee983

“Parece que crecí en un lugar poco conocido de Estados Unidos: el centro de Escocia en los años sesenta. Bathroom (por lavabo), likely (probablemente), smart (inteligente), mad (enfadado), bangs (flequillo), eran vocabulario normal, y ni siquiera veíamos mucha televisión norteamericana”.

Una de las tendencias dominantes de la inteligencia artificial en la última década ha sido la de resolver problemas creando modelos de aprendizaje profundo cada vez más grandes. Y en ningún lugar es más evidente esta tendencia que en el procesamiento del lenguaje natural, una de las áreas más desafiantes de la IA.

En los últimos años, los investigadores han demostrado que añadir parámetros a las redes neuronales mejora su rendimiento en tareas lingüísticas. Sin embargo, el problema fundamental de la comprensión del lenguaje -el iceberg que se esconde bajo las palabras y las frases- sigue sin resolverse.

Linguistics for the Age of AI (Lingüística para la era de la inteligencia artificial), un libro escrito por dos científicos del Instituto Politécnico Rensselaer, analiza las deficiencias de los enfoques actuales de la comprensión del lenguaje natural (NLU) y explora posibles vías futuras para desarrollar agentes inteligentes que puedan interactuar con los humanos sin causar frustración o cometer errores tontos.

Marjorie McShane y Sergei Nirenburg, autores de Linguistics for the Age of AI, sostienen que los sistemas de IA deben ir más allá de la manipulación de palabras. En su libro, defienden que los sistemas NLU pueden entender el mundo, explicar sus conocimientos a los humanos y aprender mientras exploran el mundo.

Sistemas basados en el conocimiento frente a sistemas ajustados al conocimiento

Pensemos en la Elaine pinchó al niño con el palo. ¿Utilizó Elaine un palo para pinchar al niño, o utilizó su dedo para pinchar al niño, que casualmente sostenía un palo?

El lenguaje está lleno de ambigüedades. Los humanos las utilizando el contexto del lenguaje. Establecemos el contexto a partir del tono del hablante, las palabras y frases anteriores, el entorno general de la conversación y los conocimientos básicos sobre el mundo. Cuando nuestras intuiciones y conocimientos fallan, hacemos preguntas. Para nosotros, el proceso de determinar el contexto resulta fácil. Pero definir el mismo proceso de forma computable es más fácil de decir que de hacer.

En general, hay dos formas de abordar este problema. En las primeras décadas de la IA, los científicos utilizaban sistemas basados en el conocimiento para definir el papel de cada palabra en una frase y extraer el contexto y el significado. Los sistemas basados en el conocimiento se basan en un gran número de características sobre el lenguaje, la situación y el mundo. Esta información puede proceder de distintas fuentes y debe calcularse de diferentes maneras.

Los sistemas basados en el conocimiento proporcionan un análisis fiable y explicable del lenguaje. Pero cayeron en desgracia porque requerían demasiado esfuerzo humano para diseñar rasgos, crear estructuras léxicas y ontologías, y desarrollar los sistemas de software que reunían todas estas piezas. Los investigadores percibieron el esfuerzo manual de la ingeniería del conocimiento como un cuello de botella y buscaron otras formas de abordar el procesamiento del lenguaje.

“La percepción pública de la inutilidad de cualquier intento de superar este llamado cuello de botella del conocimiento afectó profundamente a la trayectoria de desarrollo de la IA en general y de la PNL [procesamiento del lenguaje natural] en particular, alejando el campo de los enfoques racionalistas, basados en el conocimiento, y contribuyendo a la aparición del paradigma empirista, ajustado al conocimiento, de la investigación y el desarrollo en PNL”, escriben McShane y Nirenburg en Linguistics for the Age of AI.

En las últimas décadas, los algoritmos de aprendizaje automático han estado en el centro de la PNL y la NLU. Los modelos de aprendizaje automático son sistemas ajustados al conocimiento que tratan de resolver el problema del contexto mediante relaciones estadísticas. Durante el entrenamiento, los modelos de aprendizaje automático procesan grandes corpus de texto y ajustan sus parámetros en función de cómo aparecen las palabras unas junto a otras. En estos modelos, el contexto viene determinado por las relaciones estadísticas entre las secuencias de palabras, no por el significado de las mismas. Naturalmente, cuanto mayor sea el conjunto de datos y más diversos sean los ejemplos, mejor podrán captar esos parámetros numéricos la variedad de formas en que pueden aparecer las palabras unas junto a otras.

Los sistemas ajustados al conocimiento han ganado popularidad sobre todo porque se dispone de vastos recursos informáticos y grandes conjuntos de datos para entrenar los sistemas de aprendizaje automático. Con bases de datos públicas como Wikipedia, los científicos han podido reunir enormes conjuntos de datos y entrenar sus modelos de aprendizaje automático para diversas tareas, como la traducción, la generación de textos y la respuesta a preguntas.

El aprendizaje automático no calcula el significado

Hoy en día, disponemos de modelos de aprendizaje profundo que pueden generar secuencias de texto con longitud de artículo, responder a preguntas de exámenes científicos, escribir código fuente de software y responder a consultas básicas de atención al cliente.

La mayoría de estos campos han progresado gracias a la mejora de las arquitecturas de aprendizaje profundo  y, lo que es más importante, gracias a las redes neuronales que aumentan de tamaño cada año.

Pero aunque las redes neuronales profundas más grandes pueden proporcionar mejoras incrementales en tareas específicas, no abordan el problema más amplio de la comprensión general del lenguaje natural. Por eso, varios experimentos han demostrado que incluso los modelos lingüísticos más sofisticados no consiguen resolver preguntas sencillas sobre el funcionamiento del mundo.

En su libro, McShane y Nirenburg describen los problemas que resuelven los actuales sistemas de IA como tareas “de poca monta”. Algunos científicos creen que seguir por el camino de la ampliación de las redes neuronales acabará por resolver los problemas a los que se enfrenta el aprendizaje automático. Pero McShane y Nirenburg creen que hay que resolver problemas más fundamentales.

“Estos sistemas no se parecen a los humanos: no saben lo que hacen ni por qué, su enfoque de la resolución de problemas no se parece al de una persona y no se basan en modelos del mundo, o el lenguaje “, escriben. “En su lugar, dependen en gran medida de la aplicación de algoritmos genéricos de aprendizaje automático a conjuntos de datos cada vez más grandes, con el apoyo de la espectacular velocidad y capacidad de almacenamiento de los ordenadores modernos”.

Acercándose al significado

En comentarios a TechTalks, McShane, científico cognitivo y lingüista computacional, dijo que el aprendizaje automático debe superar varias barreras, la primera de las cuales es la ausencia de significado.

“El enfoque del aprendizaje estadístico/mecánico (S-ML) no intenta calcular el significado”, dijo McShane. “En su lugar, los profesionales proceden como si las palabras fueran una representación suficiente de sus significados, lo cual no es así. De hecho, las palabras de una frase son sólo la punta del iceberg cuando se trata del significado completo y contextual de las frases. Confundir las palabras con los significados es un enfoque de la IA tan arriesgado como navegar un barco hacia un iceberg”.

En su mayor parte, los sistemas de aprendizaje automático eluden el problema del significado de las palabras limitando la tarea o ampliando el conjunto de datos de entrenamiento. Pero incluso si una gran red neuronal consigue mantener la coherencia en un tramo de texto bastante largo, bajo el capó sigue sin entender el significado de las palabras que produce.

“Por supuesto, la gente puede construir sistemas que parecen comportarse de forma inteligente cuando realmente no tienen ni idea de lo que está pasando (por ejemplo, GPT-3)”, dijo McShane.

Todos los modelos lingüísticos basados en el aprendizaje profundo empiezan a fallar en cuanto se les formula una secuencia de preguntas triviales pero relacionadas, porque sus parámetros no pueden captar la complejidad ilimitada de la vida cotidiana. Y arrojar más datos al problema no es una solución para la integración explícita del conocimiento en los modelos lingüísticos.

Agentes inteligentes dotados de lenguaje (LEIA)

En su libro, McShane y Nirenburg presentan un enfoque que aborda el “cuello de botella del conocimiento” de la comprensión del lenguaje natural sin necesidad de recurrir a métodos basados en el aprendizaje automático puro que requieren enormes cantidades de datos.

El núcleo de Linguistics for the Age of AI es el concepto de los llamados agentes inteligentes dotados de lenguaje (LEIA, por su sigla en inglés), que se caracterizan por tres características clave:

Los LEIA pueden comprender el significado contextual del lenguaje y abrirse camino entre las ambigüedades de las palabras y las frases.

Los LEIA pueden explicar sus pensamientos, acciones y decisiones a sus colaboradores humanos.

Al igual que los seres humanos, las LEIA pueden participar en el aprendizaje permanente mientras interactúan con los seres humanos, con otros agentes y con el mundo. El aprendizaje permanente reduce la necesidad de un esfuerzo humano continuado para ampliar la base de conocimientos de los agentes inteligentes.

Los LEIA procesan el lenguaje natural a través de seis etapas, que van desde la determinación del papel de las palabras en las frases hasta el análisis semántico y, finalmente, el razonamiento situacional. Estas etapas hacen posible que el LEIA resuelva los conflictos entre los diferentes significados de las palabras y frases e integre la frase en el contexto más amplio del entorno en el que el agente está trabajando.

Los LEIA asignan niveles de confianza a sus interpretaciones de los enunciados lingüísticos y saben dónde se encuentran sus habilidades y conocimientos. En estos casos, interactúan con sus homólogos humanos (o con los agentes inteligentes de su entorno y otros recursos disponibles) para resolver las ambigüedades. Estas interacciones les permiten, a su vez, aprender cosas nuevas y ampliar sus conocimientos.

Los LEIA convierten las frases en representaciones del significado del texto (TMR, por su sigla en inglés), una definición interpretable y procesable de cada palabra de una frase. En función de su contexto y sus objetivos, los LEIA determinan qué entradas lingüísticas deben ser objeto de seguimiento. Por ejemplo, si un robot de reparación comparte la planta de un taller de reparación de máquinas con varios técnicos humanos y éstos se enzarzan en una discusión sobre los resultados de los partidos deportivos de ayer, la IA debería ser capaz de distinguir entre las frases que son relevantes para su trabajo (reparación de máquinas) y las que puede ignorar (deportes).

Las LEIA se inclinan por los sistemas basados en el conocimiento, pero también integran modelos de aprendizaje automático en el proceso, especialmente en las fases iniciales de análisis de las frases del procesamiento del lenguaje.

“Estaríamos encantados de integrar más motores de S-ML si pueden ofrecer pruebas heurísticas de alta calidad de varios tipos (sin embargo, tanto las estimaciones de confianza del agente como la explicabilidad se ven afectadas cuando incorporamos resultados de S-ML de caja negra)”, dijo McShane. “También esperamos incorporar los métodos de S-ML para llevar a cabo algunas tareas orientadas a los grandes datos, como la selección de ejemplos para sembrar el aprendizaje por lectura”.

¿Necesita la comprensión del lenguaje natural una réplica del cerebro humano?

Una de las características clave de LEIA es la integración de bases de conocimiento, módulos de razonamiento y entradas sensoriales. En la actualidad, hay muy poco solapamiento entre campos como la visión por ordenador y el procesamiento del lenguaje natural.

Como señalan McShane y Nirenburg en su libro, “la comprensión del lenguaje no puede separarse de la cognición general del agente, ya que la heurística que sustenta la comprensión del lenguaje se basa (entre otras cosas) en los resultados del procesamiento de otros modos de percepción (como la visión), en el razonamiento sobre los planes y objetivos del hablante y en el razonamiento sobre cuánto esfuerzo hay que dedicar a la comprensión de entradas difíciles”.

En el mundo real, los seres humanos recurren a su rica experiencia sensorial para suplir las carencias de las expresiones lingüísticas (por ejemplo, cuando alguien te dice “mira ahí...”, asume que puedes ver hacia dónde apunta su dedo). Además, los humanos desarrollan modelos del pensamiento de los demás y los utilizan para hacer suposiciones y omitir detalles en el lenguaje. Esperamos que cualquier agente inteligente que interactúe con nosotros en nuestro propio idioma tenga capacidades similares.

“Entendemos perfectamente que cada uno de los problemas de interpretación es difícil en sí mismo, y hay que trabajar en aspectos sustanciales de cada problema por separado”, dijo McShane. “Sin embargo, los aspectos sustanciales de cada problema no pueden resolverse sin integración, por lo que es importante resistirse a (A) asumir que la modularización conduce necesariamente a la simplificación, y (B) aplazar la integración indefinidamente”.

Mientras tanto, para lograr un comportamiento similar al humano no es necesario que las LEIA se conviertan en una réplica del cerebro humano. “Estamos de acuerdo con Raymond Tallis (y otros) en que lo que él llama neuromanía -el deseo de explicar lo que el cerebro, como entidad biológica, puede decirnos sobre la cognición y la conciencia- ha llevado a afirmaciones dudosas y a explicaciones que no explican realmente”, dijo McShane. “Al menos en esta fase de su desarrollo, la neurociencia no puede proporcionar ningún soporte de contenido (sintáctico o estructural) para el modelado cognitivo del tipo, y con los objetivos, que emprendemos”.

En Linguistics for the Age of AI, McShane y Nirenburg sostienen que replicar el cerebro no serviría al objetivo de explicabilidad de la IA. “Los agentes que operan en equipos humano-agente necesitan comprender las entradas en el grado necesario para determinar qué objetivos, planes y acciones deben perseguir como resultado de la NLU”, escriben.

Un objetivo a largo plazo

Muchos de los temas tratados en Lingüística para la era de la IA se encuentran todavía en un nivel conceptual y no se han puesto en práctica. Los autores proporcionan planos de cómo debería funcionar cada una de las etapas de la NLU, aunque los sistemas de trabajo aún no existen.

Pero McShane es optimista en cuanto a los avances en el desarrollo de la LEIA. “Conceptual y metodológicamente, el programa de trabajo está muy avanzado. El principal obstáculo es la falta de recursos que se destinan al trabajo basado en el conocimiento en el clima actual”, dijo.

McShane cree que el cuello de botella del conocimiento que se ha convertido en el punto central de las críticas contra los sistemas basados en el conocimiento es erróneo en varios sentidos:

(1) En realidad no hay ningún cuello de botella, simplemente hay trabajo que debe hacerse.

(2) El trabajo puede llevarse a cabo en gran medida de forma automática, haciendo que el agente aprenda tanto sobre el lenguaje como sobre el mundo a través de su propio funcionamiento, apoyándose en un léxico y una ontología básicos de alta calidad que son adquiridos por las personas.

(3) Aunque McShane y Nirenburg creen que muchos tipos de conocimiento pueden aprenderse automáticamente -sobre todo a medida que aumentan las bases de conocimiento que fomentan el bootstrapping-, el flujo de trabajo de adquisición de conocimiento más eficaz incluirá a los humanos en el bucle, tanto para el control de calidad como para manejar los casos difíciles.

“Estamos preparados para emprender un programa de trabajo a gran escala en la adquisición general y orientada a la aplicación que haría que una variedad de aplicaciones que implican la comunicación lingüística fueran mucho más parecidas a las humanas”, dijo.

En su trabajo, McShane y Nirenburg también reconocen que queda mucho por hacer y que el desarrollo de las LEIA es un “programa de trabajo continuo, a largo plazo y de gran alcance”.

“La profundidad y la amplitud del trabajo que hay que hacer están en consonancia con lo elevado del objetivo: permitir que las máquinas utilicen el lenguaje con una competencia similar a la humana”, escriben en Linguistics for the Age of AI.

 

Ben Dickson es ingeniero de software y fundador de TechTalks. Escribe sobre tecnología, negocios y política.

Este artículo apareció originalmente en Bdtechtalks.com. Derechos de autor 2021.

Este texto fue traducido del inglés mediante Deepl y editado por Ricardo Soca