La inteligencia artificial arroja luz sobre cómo el cerebro procesa el lenguaje
Neurocientíficos del MIT descubren que el funcionamiento interno de los modelos de predicción de palabras siguientes se asemeja al de los centros de procesamiento del lenguaje en el cerebro.
En los últimos años, los modelos de inteligencia artificial aplicada al lenguaje se han vuelto muy buenos en ciertas tareas. En particular, destacan en la predicción de la siguiente palabra de una cadena de texto; esta tecnología ayuda a los motores de búsqueda y a las aplicaciones de mensajería a predecir la siguiente palabra que se va a escribir.
La generación más reciente de modelos lingüísticos predictivos también parece aprender algo sobre el significado subyacente del lenguaje. Estos modelos no sólo pueden predecir la palabra que viene a continuación, sino que también realizan tareas que parecen requerir cierto grado de comprensión genuina, como responder a preguntas, resumir documentos y completar historias.
Estos modelos se diseñaron para optimizar el rendimiento de la función específica de predecir el texto, sin intentar imitar nada sobre cómo el cerebro humano realiza esta tarea o entiende el lenguaje. Pero un nuevo estudio de neurocientíficos del MIT sugiere que la función subyacente de estos modelos se asemeja a la de los centros de procesamiento del lenguaje en el cerebro humano.
Los modelos informáticos que rinden bien en otros tipos de tareas lingüísticas no muestran esta similitud con el cerebro humano, lo que ofrece pruebas de que el cerebro humano puede utilizar la predicción de la siguiente palabra para impulsar el procesamiento del lenguaje.
“Cuanto mejor sea el modelo en la predicción de la siguiente palabra, más se ajustará al cerebro humano”, afirma Nancy Kanwisher, catedrática de Neurociencia Cognitiva Walter A. Rosenblith, miembro del Instituto McGovern de Investigación Cerebral y del Centro de Cerebros, Mentes y Máquinas (CBMM) del MIT, y autora del nuevo estudio. “Es sorprendente que los modelos encajen tan bien, y sugiere de forma muy indirecta que tal vez lo que hace el sistema del lenguaje humano es predecir lo que va a ocurrir a continuación”.
Joshua Tenenbaum, profesor de ciencia cognitiva computacional en el MIT y miembro del CBMM y del Laboratorio de Inteligencia Artificial del MIT (CSAIL); y Evelina Fedorenko, profesora asociada de neurociencia Frederick A. y Carole J. Middleton Career Development y miembro del Instituto McGovern, son los autores principales del estudio, que aparece esta semana en Proceedings of the National Academy of Sciences. Martin Schrimpf, estudiante de posgrado del MIT que trabaja en el CBMM, es el primer autor del trabajo.
Los nuevos modelos de predicción de palabras siguientes de alto rendimiento pertenecen a una clase de modelos llamados redes neuronales profundas. Estas redes contienen “nodos” computacionales que forman conexiones de fuerza variable, y capas que transmiten información entre sí de maneras prescritas.
En la última década, los científicos han utilizado redes neuronales profundas para crear modelos de visión que pueden reconocer objetos tan bien como lo hace el cerebro de los primates. Las investigaciones del MIT también han demostrado que la función subyacente de los modelos de reconocimiento de objetos visuales coincide con la organización de la corteza visual de los primates, aunque esos modelos informáticos no se diseñaron específicamente para imitar el cerebro.
En el nuevo estudio, el equipo del MIT utilizó un enfoque similar para comparar los centros de procesamiento del lenguaje en el cerebro humano con los modelos de procesamiento del lenguaje. Los investigadores analizaron 43 modelos lingüísticos diferentes, incluidos varios optimizados para la predicción de la siguiente palabra. Entre ellos se encuentra un modelo llamado GPT-3 (Generative Pre-trained Transformer 3), que, dada una indicación, puede generar un texto similar al que produciría un humano. Otros modelos se diseñaron para realizar diferentes tareas lingüísticas, como rellenar un espacio en blanco en una frase.
Al presentar cada modelo una cadena de palabras, los investigadores midieron la actividad de los nodos que componen la red. A continuación, compararon estos patrones con la actividad del cerebro humano, medida en sujetos que realizaban tres tareas lingüísticas: escuchar historias, leer frases de una en una y leer frases en las que se revela una palabra cada vez. Estos conjuntos de datos humanos incluían datos de resonancia magnética funcional (fMRI) y mediciones electrocorticográficas intracraneales tomadas en personas sometidas a cirugía cerebral por epilepsia.
Comprobaron que los modelos de predicción de la siguiente palabra con mejor rendimiento presentaban patrones de actividad muy parecidos a los observados en el cerebro humano. La actividad de esos mismos modelos también estaba muy correlacionada con las medidas de comportamiento humano, como la rapidez con la que las personas eran capaces de leer el texto.
“Descubrimos que los modelos que predicen bien las respuestas neuronales también tienden a predecir mejor las respuestas del comportamiento humano, en forma de tiempos de lectura. Y luego ambos se explican por el rendimiento del modelo en la predicción de la siguiente palabra. Este triángulo lo une todo”, afirma Schrimpf.
“Un aspecto clave de este trabajo es que el procesamiento del lenguaje es un problema muy limitado: las mejores soluciones que han creado los ingenieros de IA acaban siendo similares, como muestra este paper a las soluciones halladas por el proceso evolutivo que creó el cerebro humano. Este triángulo lo une todo”, afirma Schrimpf.
“Un aspecto clave de este trabajo es que el procesamiento del lenguaje es un problema muy limitado: las mejores soluciones que han creado los ingenieros de IA acaban siendo similares, como muestra este artículo, a las soluciones encontradas por el proceso evolutivo que creó el cerebro humano. Dado que la red de IA no pretendía imitar directamente al cerebro ―pero acaba pareciéndose a él―, esto sugiere que, en cierto sentido, se ha producido una especie de evolución convergente entre la IA y la naturaleza”, afirma Daniel Yamins, profesor adjunto de Psicología y Ciencias de la Computación en la Universidad de Stanford, que no participó en el estudio.
Cambio de paradigma
Una de las características computacionales clave de los modelos predictivos como el GPT-3 es un elemento conocido como transformador predictivo unidireccional. Este tipo de transformador es capaz de hacer predicciones de lo que va a venir después, basándose en secuencias anteriores. Una característica significativa de este transformador es que puede hacer predicciones basadas en un contexto previo muy largo (cientos de palabras), no sólo en las últimas palabras.
Los científicos no han encontrado ningún circuito cerebral o mecanismo de aprendizaje que se corresponda con este tipo de procesamiento, afirma Tenenbaum. Sin embargo, los nuevos hallazgos concuerdan con las hipótesis que se han propuesto anteriormente de que la predicción es una de las funciones clave en el procesamiento del lenguaje, dice.
“Uno de los retos del procesamiento del lenguaje es su aspecto en tiempo real”, afirma. “El lenguaje llega y hay que seguirlo y ser capaz de darle sentido en tiempo real”.
Los investigadores planean ahora construir variantes de estos modelos de procesamiento del lenguaje para ver cómo los pequeños cambios en su arquitectura afectan a su rendimiento y a su capacidad para ajustarse a los datos neuronales humanos.
“Para mí, este resultado ha supuesto un cambio de paradigma”, afirma Fedorenko. “Está transformando totalmente mi programa de investigación, porque no habría predicho que en mi vida llegaríamos a estos modelos computacionalmente explícitos que capturan lo suficiente sobre el cerebro como para que podamos aprovecharlos en la comprensión del funcionamiento del cerebro”.
Los investigadores también tienen previsto intentar combinar estos modelos lingüísticos de alto rendimiento con algunos modelos informáticos que el laboratorio de Tenenbaum ha desarrollado previamente y que pueden realizar otro tipo de tareas, como la construcción de representaciones perceptivas del mundo físico.
“Si somos capaces de entender lo que hacen estos modelos de lenguaje y cómo pueden conectarse con modelos que hacen cosas más parecidas a la percepción y el pensamiento, entonces eso puede darnos modelos más integradores de cómo funcionan las cosas en el cerebro”, dice Tenenbaum. “Esto podría llevarnos hacia mejores modelos de inteligencia artificial, así como darnos mejores modelos de cómo funciona más del cerebro y cómo surge la inteligencia general, de los que hemos tenido en el pasado”.
La investigación fue financiada por una beca Takeda; la beca Shoemaker del MIT; la Corporación de Investigación de Semiconductores; los Consorcios del Laboratorio de Medios del MIT; la beca Singleton del MIT; la beca presidencial para graduados del MIT; la beca de los Amigos del Instituto McGovern; el Centro del MIT para Cerebros, Mentes y Máquinas, a través de la Fundación Nacional de Ciencias; los Institutos Nacionales de Salud; el Departamento de Ciencias Cerebrales y Cognitivas del MIT; y el Instituto McGovern.
Otros autores del trabajo son Idan Blank PhD '16 y los estudiantes graduados Greta Tuckute, Carina Kauf y Eghbal Hosseini.