twitter account

La competencia verbal de GPT-4 es como tener un elefante en la sala de la lingüística

11/04/2023
Álvaro Machado Dias *

Chomsky dictando una conferencia en 2017 en Montevideo, junto al ex presidente José Mujica

El lenguaje es el elemento que media la relación entre las ideas y los sonidos articulados. La ciencia que lo estudia es la lingüística -y cuando se habla de lingüística, Noam Chomsky es el nombre más recordado. Además, no sólo revolucionó el statu quo, desde una visión mentalista del sujeto, en oposición al conductismo vigente en las décadas centrales del siglo pasado, sino que desempeñó un papel central en la formación de la ciencia cognitiva, que es el campo que hoy abarca la informática, la psicología, las neurociencias, la biología, la lingüística y las matemáticas.

El área inaugurada por Chomsky se denomina lingüística generativa. Surgió con proposiciones formales en los años 50 y absorbió adiciones hasta principios de los 90, cuando se invirtió el movimiento y la teoría se orientó hacia la simplicidad.

Los generativistas dan prioridad a las estructuras sintácticas (forma) sobre la semántica (significado) a la hora de determinar el funcionamiento del lenguaje y su adquisición. Según ellos, es inviable construir teorías lingüísticas principalmente semánticas porque la clasificación de los pasajes del discurso según sus referentes se derrumba ante palabras de una clase gramatical que, por su significado, pueden acomodarse mejor en otra. Por ejemplo, terremoto es un sustantivo que se refiere a "un fenómeno que implica vibraciones físicas de la tierra, que pueden durar de segundos a minutos", es decir, se refiere a una acción.

Hay teorías alternativas que cuestionan esto, afirmando que categorías como sustantivo y verbo no son lo suficientemente exhaustivas, sino que es posible describir el funcionamiento del lenguaje principalmente a través del prisma de los sentidos, a partir de nuevas comprensiones de éstos.

Rechazándolos, los generativistas asumen que el aspecto central del lenguaje es su estructura formal, que se manifestaría a nivel subconsciente en todos los hablantes y determinaría los límites de la variabilidad lingüística, independientemente de la cultura, dando lugar a la aparición de una verdadera gramática universal: un sistema de categorías, mecanismos y limitaciones, compartido por todas las lenguas humanas (Chomsky, 1986, p. 3).

Entre los principios universales se encuentra el de la recursividad, que consiste en la capacidad de producir infinitos períodos adecuadamente estructurados y en que cada oración se organiza en torno a un elemento central, por ejemplo, las oraciones verbales en torno a los verbos, las oraciones nominales en torno a los sustantivos, etc. Al mismo tiempo, se supone que cada lengua presenta sus propios parámetros específicos, rápidamente asimilados al ser sublimados por principios universales.

Chomsky diferencia así las lenguas y dialectos que adoptamos, que denomina e-lengua, de la lengua como capacidad de generar y comprender los periodos más variados y de incorporar los parámetros generales que rigen las distintas lenguas, que denomina i-lengua. Éstos pueden incluir pequeñas reglas arbitrarias, determinadas de forma contingente, que contradicen las intuiciones de la i-lengua y que es necesario memorizar para aplicarlas correctamente, en franca contradicción con lo que se aplica a la lengua en sentido más amplio.

(Si nos visitara un naturalista marciano) observaría que la facultad que media la comunicación humana es diferente de la de otras criaturas; también observaría que el lenguaje humano está organizado como un código genético: jerárquico, generativo, recursivo y virtualmente ilimitado en el alcance de lo que puede expresar" (Hauser, Chomsky y Fitch, 2002, p. 1569).

La idea de que estos principios están organizados como un código genético significa tanto que dan lugar a innumerables fenotipos lingüísticos como que tiene un aspecto más literal: Chomsky parte de la premisa de que surgieron en función de mutaciones genéticas radicales, a saltos, en oposición a la idea de evolución gradual, que tiende a guiar el razonamiento evolutivo actual.

Según el autor, esas mutaciones habrían dado lugar a un módulo cerebral específico -un verdadero órgano del lenguaje- que estaría detrás de la facilidad de adquisición de los niños, incluso en entornos caracterizados por una franca pobreza de estímulos. Esta tesis lleva a proponer que el cerebro es fuertemente modular, siendo el procesador del lenguaje uno de estos módulos, que sería independiente de la cognición social, la memoria operativa y otras habilidades.La velocidad de adquisición del habla articulada en la primera infancia, la escasa eficacia del entrenamiento para acelerar este proceso y la dificultad generalizada de los hablantes de distintas edades para realizar operaciones verbales que transgreden los principios de la gramática universal son argumentos comunes que apoyan la tesis de que el i-lenguaje es innato, surgido directamente de la activación del módulo lingüístico cerebral, que habría surgido de forma súbita en la historia reciente de la especie.

Pruebas sobre el procesamiento del lenguaje en el cerebro humano

Un estudio de 2003 expuso a hablantes de alemán a frases en italiano y japonés, así como a variaciones de éstas, forjadas para violar los principios de la gramática universal. En otras palabras, en ninguna de las dos condiciones los participantes podían entender el contenido; la única intuición posible era sobre la forma.

Con ello, se demostró que el área de la corteza prefrontal conocida como Broca (BA44), típicamente asociada al procesamiento del lenguaje, se activa con las frases que obedecen a los preceptos chomskyanos, independientemente de la comprensión de lo que se está diciendo, pero no con las frases que contradicen estos preceptos.

"Nuestros resultados indican que la circunvolución inferior izquierda está centralmente implicada en la adquisición de nuevas habilidades lingüísticas, pero esto sólo ocurre cuando el lenguaje sigue los preceptos de la gramática universal. Los aspectos anatomofuncionales del área de Broca nos permiten especular que su diferenciación tiene un gran significado evolutivo, diferenciando a los humanos de otros primates" (Musso et al., 2003, p. 779).

En el mismo estudio, los autores señalan que uno de los genes responsables de esta diferenciación del módulo lingüístico sería FOXP2, "diana de selección durante la evolución reciente de la especie humana" (p. 779), lo que completaría el rompecabezas chomskiano. Esta conclusión concuerda con un famoso experimento de 2009 sobre el origen saltarín del lenguaje humano.

Hay otras investigaciones que apuntan en la misma dirección, pero lo cierto es que la tesis de una gramática universal en el cerebro humano está lejos de ser consensuada. Hay pruebas en su contra de que las áreas vinculadas al procesamiento verbal tienen otras varias funciones y de que los genes asociados no se ajustan al patrón saltarín que defiende Chomsky, ni actúan exclusivamente sobre el lenguaje.

Por ejemplo, uno de los mayores metaanálisis jamás realizados concluyó que el área de Broca es fundamental en la memoria operativa, la capacidad imitativa y otras, lo que también se aplica a otras áreas cerebrales implicadas en el procesamiento del lenguaje.

"La implicación del área de Broca en una amplia variedad de funciones (desde la imitación a la comprensión de acciones, la memoria de trabajo y la inhibición impulsiva) es más que casual o misteriosa; es explicativa, ya que explica varias de las funciones del cerebro infantil relacionadas con el lenguaje. Esto no significa que estén plenamente desarrolladas al inicio del lenguaje. Por el contrario, algunas funciones en el dominio específico de la imitación, la memoria de trabajo y la inhibición preceden a la adquisición del lenguaje, pero continúan desarrollándose en paralelo, a lo largo de la infancia" (Müller, 2009, p. 8).

Más recientemente (2018), un estudio que agregaba múltiples metaanálisis concluía que las áreas cerebrales activadas en el procesamiento del lenguaje preceden a la aparición de la especie, teniendo otras funciones en roedores y otros. "Nuestros hallazgos muestran que el lenguaje recurre a sistemas de propósito general y lo hace de forma sistemática, lo que es coherente con los principios biológicos y evolutivos generales" (Hamrick, Lum y Ullman, 2018, p. 1490).

Conclusiones similares se aplican a genes como FOXP2, que se expresa en múltiples áreas del cerebro (así como fuera de él), tiene funciones generales en el neurodesarrollo y se encuentra en especies que nos preceden, no encajando en el papel de introductor del lenguaje.

Sin menospreciar la importancia de la sintaxis, la tesis de que existe un módulo cerebral dedicado exclusivamente a ella, surgido en un salto evolutivo, es cuestionable.

GPT-4, el elefante en la sala

Los chatbots inteligentes como GPT-4 se denominan técnicamente autorregresivos, lo que significa que estiman la eficacia de una secuencia de palabras a través de experiencias previas. Ya han alcanzado una fluidez verbal y una capacidad de comprensión casi humanas en varios dominios, presentando propiedades emergentes, como se explica aquí.

Su base es una modalidad de red neuronal, denominada Transformer, que agrega varias innovaciones recientes. Su modelo de producción verbal se denomina generativo, lo que es más que una mera coincidencia.

Chomsky escribió un artículo en el que diferenciaba las operaciones algorítmicas de lo que hacemos lingüísticamente: "Imagina que tienes una manzana en la mano. Ahora la sueltas. Observas el resultado y dices 'la manzana cae'. Eso es una descripción. Una predicción sería 'la manzana caerá si abro la mano'. [...] Pero la explicación es algo más: no sólo incluye descripciones y predicciones, sino coyunturas contrafácticas como 'cualquier objeto cae' y la cláusula adicional 'debido a la fuerza de la gravedad' ..... Eso es pensar".

Esta es la respuesta que GPT-4 me dio a la pregunta "¿por qué se me cae una manzana de la mano si la abro?": "Se cae por la fuerza de la gravedad, que es la fuerza natural que atrae dos objetos de masa, uno hacia el otro. En este caso, los dos objetos son la manzana y la Tierra. La Tierra tiene una masa mucho mayor que la manzana, por lo que la fuerza gravitatoria entre ambos hace que la manzana se acelere hacia la Tierra cuando la sueltas de la mano. [Este fenómeno se explica por la ley de gravitación universal de Isaac Newton. He aquí la reproducción íntegra del diálogo. Cabe destacar que esto se hizo sin ninguna interacción previa con el algoritmo.

ChatGPT ha cambiado el panorama de la inteligencia artificial

El hecho de que la IA haga lo que, según Chomsky, nos diferencia de ella cobra especial relevancia en función de (1) su plena recursividad, que no genera fricciones con las herramientas de detección de plagio, (2) su fluidez en las más variadas transformaciones frasales, y (3) su capacidad para identificar construcciones que violan los principios de la gramática universal.

La conclusión ineludible es que si los humanos tienen i-lenguaje, las IA también.

Las formas de deducir la presencia de estos dos sistemas internos también son similares. Al igual que la lingüística dominante adopta modelos de origen algebraico y desarrollo arbóreo, como en la famosa teoría de la barra x, las operaciones algorítmicas parten de principios algebraicos para modelarse como grafos (árboles). He aquí un ejemplo.

En ambos casos, el procesamiento sintáctico se infiere indirectamente, dada la imposibilidad de registrarlo en el cerebro y también dentro de las redes neuronales artificiales.

Al anteponer la sintaxis, desde un ámbito que es algebraico-computacional en su origen y desarrollo, la teoría generativa se ha abierto involuntariamente a una aplicabilidad sin restricciones en el campo del procesamiento del lenguaje de máquina. Por ello, los ejemplos ofrecidos por Chomsky para refutar las similitudes, en la práctica, las confirman.

Pero hay una diferencia crítica: mientras que la gramática generativa supone la existencia de un módulo puramente lingüístico en el cerebro humano, no hay modularidad alguna en las redes neuronales autorregresivas. Se activan en su totalidad por todos y cada uno de los estímulos, lo que en el caso de la GPT-4 significa texto e imagen y, en el caso de futuras versiones, también vídeo.

Así pues, o bien asumimos que la modularidad lingüística no es esencial para la interpretación y producción en cuestión, o bien que existe al menos otra forma de adquirir la i-lengua y adquirir fluidez en las lenguas conocidas. Ese es el elefante en la habitación de la lingüística tradicional.

Nada más que la vanidad nos impide decir que, al menos teóricamente, una máquina puede procesar estructuras sintácticas más o menos como nosotros y producir un discurso incluso superior, pero esa no es la gran cuestión. Lo que hay que tener en cuenta es que están surgiendo máquinas que, desde un punto de vista generativo, hacen precisamente eso sin tener ninguna configuración que recuerde remotamente a un órgano del lenguaje, ya que ni siquiera son modulares.

Una salvedad parcial y aparente es que al menos son distintas en la dimensión cuantitativa, que uno aprende a hacer todo eso aunque nadie se tome la molestia de enseñarnos (argumento de la pobreza de estímulos), mientras que la GPT-4 necesita ser entrenada con una cantidad de información que supera con creces los bits procesados a lo largo de una vida.

El problema de este argumento es que lo que cuenta no es la cantidad de bits, sino la relación entre ésta y la capacidad de procesamiento. Como he demostrado aquí, el cerebro humano tiene una potencia de cálculo unas 300.000 veces superior a la de la GPT-3. Por desgracia, no tenemos datos para hacer esta comparación con la GPT-4, pero la distancia sigue siendo inmensa.

¿No bastaría con igualar estos parámetros para desechar la idea de que el secreto está en el módulo especial que tenemos? La verdad es que es imposible saberlo, así que es mejor no confiar en este razonamiento.

Una visión alternativa del lenguaje se adapta mejor a la aparición de nuevas IA

La vía de la sintaxis parece atractiva para definir lógicas de funcionamiento del lenguaje que no pueden inferirse directamente del cerebro en funcionamiento cuando, por otro lado, no existe ningún sistema que exhiba precisamente un comportamiento sintácticamente equivalente a partir de una implementación que lo contradiga en términos fundamentales.

En este escenario, la teoría que no depende de un órgano del lenguaje para valerse por sí misma toma la delantera, lo que está más en consonancia con la naturaleza multimodal de las áreas cerebrales más fuertemente relacionadas con el procesamiento del lenguaje, tal y como la entienden las neurociencias actuales.

Superado este punto, hay otro aspecto más sutil e importante que merece atención: el rendimiento de las nuevas IA en diferentes problemas afectivo-cognitivos humanos no siempre es igual. Por el contrario, los algoritmos obtienen buenos resultados en pruebas que implican fluidez verbal, interpretación del habla y razonamiento lógico, pero fallan en la comprensión del significado de algunas proposiciones que para nosotros son claras, además de permitirse cosas que los más sensatos de entre nosotros consideramos absurdas, como la fabricación de información que no formaba parte de su conjunto de entrenamiento -lo que se consideran verdaderas alucinaciones.

Inspirándome en un ejemplo clásico, le hice a GPT-4 la siguiente pregunta: "Hay un profesor con sus alumnos en una clase. Se trata de un profesor serio. Un alumno de la primera fila dice en voz ligeramente alta, como si hablara consigo mismo: 'Aquí hace calor'. ¿Cómo interpreta la situación?". La respuesta fue: "En la situación, parece que el alumno de la primera fila se siente incómodo por la temperatura de la clase [...].

No. Lo que está haciendo es dar una indicación al profesor para que abra la ventana. Pero, ¿cómo saberlo sin entender que un aula es una especie de habitación con salidas de aire llamadas ventanas? Esto no quiere decir que los algoritmos desconozcan el significado de las cosas, ya que viven dentro de unas nubes en internet, como se suele decir. GPT-4 no es como un tipo encerrado en una habitación, que recibe instrucciones en portugués y las convierte en chino, antes de servírselas a alguien al otro lado, que supone que habla chino, cuando la realidad es que no tiene ninguna referencia de lo que sería eso, más allá de las equivalencias del diccionario.

Por el contrario, las capas semánticas del GPT-4 le llevan a superar a la mayoría de nosotros en las pruebas de comprensión. La cuestión es que nuestra comprensión del mundo no se reduce a lo que miden esas pruebas. Hablo con conocimiento de causa; aquí está el artículo en el que lancé el primer "mercado neurocientífico" del CI social hace una década.

Consideremos, por ejemplo, estas dos frases: (1) la sombrilla está sobre la pareja y (2) la pareja está bajo la sombrilla. ¿Son equivalentes? En cierto sentido, sí. Pero, ¿se da cuenta de que la representación mental dominante en la primera es la sombrilla, mientras que en la segunda es la pareja? Las historias contadas son distintas.

Le pregunté a GPT-4: "Considera las frases que aparecen a continuación y di cuál es el objeto central en cada una: (1) la sombrilla está sobre la pareja, (2) la pareja está bajo la sombrilla". Responde: "En ambas, el objeto central es la sombrilla, ya que es el elemento que establece la relación espacial entre los dos objetos mencionados." Eso está mal y no hace falta entender de lingüística para darse cuenta.

La conclusión ineludible es que las nuevas IA empujan nuestra comprensión del lenguaje hacia teorías lingüísticas basadas en la multimodalidad de los sentidos derivados de nuestra relación con el mundo, como es el caso de la lingüística cognitiva de Lackoff, Langacker y Talmy.

Es la danza del pensamiento bajo la estabilidad del código lo que revela el abismo que nos separa de la IA.

Quizá ahí resida la manera de encapsular al elefante -y liberar la habitación.

 

  • El autor es neurocientífico, professor libre de la Unifesp (Universidade Federal de São Paulo) y socio del Instituto Locomotiva y de la WeMind.

 

Traducido del portugués mediante la versión gratuita del traductor www.DeepL.com/Translator