twitter account

Computación: una revolución
en la Lingüística

23/03/2012

Luis Alemany, El Mundo¿Cuántas palabras tiene un idioma? ¿Cómo viven? ¿Cómo mueren? Las respuestas, según Culturomics, están en los números.En diciembre de 2010, Google presenta 'Books ngram viewer', una herramienta que actúa como un buscador de palabras en los fondos de su biblioteca digitalizada 'Google books' y mide su frecuencia de aparición, año a año. Suena a juego divertido. Se pueden buscar palabrotas, nombres propios, topónimos... Un mes después, un grupo de 'científicos sociales' procedentes, en su mayoría, de la universidad de Berkeley, presentan en la revista 'Science' una línea de trabajo que se basa en el uso de esa herramienta. Su título/marca es 'Culturomics' y, como el asunto suena a 'freakonomics', sigue pareciendo divertido. Marzo de 2012. El equipo de trabajo de Culturomics lanza un nuevo 'paper' que, unido a su primera 'cosecha', ofrece conclusiones impresionantes para los ojos de un lector que no sea lingüista. Por ejemplo: el corpus de palabras empleadas por los hablantes de la lengua inglesa ronda el millón; tres veces más que las recogidas en el diccionario más extenso. Más de 8.000 voces nuevas se incorporan cada año al idioma. Las palabras, además, viven en un mundo competitivo, en el que tienen que pelear por su supervivencia contra sus sinónimos. Etcétera, etcétera.«Nuestro conocimiento de las lenguas en este momento es equivalente al que tenia Galileo en el siglo XVI sobre el universo: él inventó el telescopio para poder hacer mejores observaciones. La tecnología mejoró la investigación en Física. Hasta que no ha habido una tecnología que ha permitido disponer de los datos sobre el lenguaje de manera manejable para los investigadores, es decir, hasta que no ha aparecido la tecnologia digital, nuestro conocimiento se ha basado en lo que podían captar nuestros sentidos, lo cual es muy limitado. La tecnología digital permite disponer de grandes bancos de datos textuales sobre los que podemos aplicar programas que nos permiten analizar como son las lenguas, cual es su estructura, etcétera. Y lo que es más, la tecnología de la imagen (resonancia magnética y tomografías de emisión de positrones) nos permite ver el cerebro en acción y observar su funcionamiento cuando realiza funciones cognitivas relacionadas con el lenguaje. Por primera vez se va a poder estudiar el lenguaje de manera integrada con la Neurociencia. La digitalización de la información ha sido realmente una revolución en las ciencias del lenguaje«.La que habla es María Antonia Martí, lingüista y profesora de la Universitat de Barcelona y directora del Centre de Llenguatge i Computació. Como ella, cuatro filólogos responden a ELMUNDO.es sobre el valor de experiencias como 'Culturomics'. En el correo de ida, cuatro preguntas más o menos sencillas: ¿qué tienen de nuevo trabajos como el de Culturomics? ¿Cuál es su valor? ¿Cuáles son sus límites? ¿Cuánto sabemos de las lenguas que hablamos?María Antonia Martí

«Desde el momento en que se empieza a disponer de textos en soporte digital se ve la posibilidad de aplicar programas que realizan análisis cuantitativos de los textos. Esto tiene lugar en Estados Unidos en los años 50. El análisis cuantitativo permite averiguar de manera muy rápida las palabras más frecuentes, qué combinaciones de palabras son las que predominan, etcétera. Con estos datos, aunque son limitados, se puede afrontar el análisis cualitativo (del contenido) con mayor objetividad. Que conste que me centro en los 'métodos'; otra cosa distinta serían los 'modelos' matemáticos del lenguaje, pero esto es harina de otro costal«.«Estos métodos tienen la ventaja de ser fácilmente implementables, son independientes de la lengua y ponen a disposición del investigador los datos lingüísticos preprocesados, de manera que se facilita la investigación posterior. Además, como se ve en el artículo de Culturomics, el interés de la aplicación de estos métodos no és sólo lingüística, tiene un interés social, cultural... amplio y se pueden beneficiar de ello investigadores de diversas líneas de investigación. Actualmente se están desarrollando métodos estadísticos muy sofisticados para extraer información de grandes corpus. Por ejemplo se puede saber qué palabras están relacionadas. Ésta es una web muy simple de un programa que hemos desarrollado en nuestro grupo de investigación: en la casilla de arriba pones una palabra del español, la que sea, y verás como aparecen las palabras relacionadas sobre un fondo de color más o menos fuerte según el grado de conexión«.Carlos Subirats (catedrático en el Departamento de Filología Española de la Universidad Autonoma de Barcelona)«Simplificando mucho (si me permites) podríamos decir que los métodos puramente estadísticos se han aplicado, en algunos casos con mucho éxito, desde la lingüística computacional. Esto sería el planteamiento clásico. Pero en la actualidad, lo que estamos haciendo es combinar las análisis desarrollados por lingüistas con los métodos estadísticos más sofisticados. Incluso en la actualidad hay sistemas de tratamiento automático que combinan los sistema de reglas (lingüísticas) con sistemas estadísticos dentro de una misma aplicación informática. En general el valor de los métodos estadísticos es su aplicabilidad para procesamiento automático del lenguaje«.«Los límites vienen dados por el hecho de que los métodos estadísticos (o numéricos) sólo tienen acceso al aspecto formal del lenguaje, es decir, tratan el lenguaje como simples concatenaciones de formas (palabras) y realizan cálculos sobre las palabras sus combinaciones, su probabilidad de aparición una junto a otra, etcétera. Con este tipo de análisis se pueden hacer muchas cosas, pero, como sabemos hoy, tanto los lingüistas como los hablantes, la información lingüística no está 'contenida' en las palabras, sino que el lenguaje es un sistema que nos permite evocar y recrear una realidad mucho más compleja. Es decir, las palabras no 'transportan' o 'contienen' el significado, sino que el significado se recrea en la mente del hablante o del oyente, mediante los procesos que desencadenan las palabras. Es decir, el significado no está en las palabras, sino en los procesos cognitivos que desencadenan las palabras. Por eso, en la actualidad se combinan los métodos estadísticos con planteamientos cognitivos«.«[De nuestros idiomas] sabemos muy poco. Pero si lo comparamos con lo que sabíamos en la época de Nebrija, creo que el balance es positivo y que ha habido un gran avance, especialmente, dentro de la lingüística cognitiva, que tiene antecedentes en tradiciones clásicas, como, por ejemplo, la gramática filosófica francesa. Pero es cierto que queda un gran camino por recorrer. El problema es que la lingüística es una disciplina que cubre un área tan extensa (psicologia, ciencia cognitiva, neurolingüística, neurocognitivismo, antropología, ciencias de la computación, etcétera), que complica evidentemente la realización de avances que tienen que integrar necesariamente todos estos aspectos para ser realmente consistentes«.Jaime Siles (catedrático de Filología Clásica en la Universidad de Valencia y presidente de la Sociedad Española de Estudios Clásicos)«[En el estudio de la Literatura] desconfío no poco de estos métodos puramente cuantitativos que, si bien tienen la ventaja de facilitarnos el índice de frecuencia de determinados usos lingüísticos de un autor, no nos añaden demasiada información ni sobre una obra ni sobre el sistema de su mundo. A veces lo numérico intenta maquillar de cientifismo algo que dista mucho de ser científico en sí: el número de ventanas de un edificio nos informa de uno de los elementos de un edificio, pero no de su totalidad. Y las medidas del bastidor de un cuadro (que son un dato objetivo) difícilmente pueden confundirse con su carácter artístico«.«Sobre la lengua (y no digamos sobre el lenguaje) sabemos poco: la primera es sentida por la mayoría de la gente como un medio y un modo de comunicación; pero para los escritores es un modo y un medio de expresión y de creación; y para los filósofos, un modo y un medio de representación. Es todas esas cosas a la vez lo que nos da un poema: reducirlo a su composición (o descomposición, fónica, fonológica o silábica) nos aporta información sobre el verso, pero no sobre el poema. Por eso hay que aceptar las limitaciones de este método, que las tiene (como también sus ventajas) como todos. Una mezcla de entusiasmo, escepticismo y objetividad es lo recomendable«.Montse Alberte (traductora y lexicógrafa. Coeditora de 'El dardo en la academia')«La aplicación de métodos matemáticos al estudio de la lengua corre paralela a la aparición de los ordenadores y, especialmente, a su desarrollo y el incremento de su capacidad y velocidad de procesamiento. Conforme han ido siendo más potentes, capaces de manejar más datos, esta aplicación se ha hecho más presente y ha permitido realizar más observaciones y llegar a más conclusiones. La reciente digitalización de textos, cada vez más en masa, ha supuesto la creación de una materia prima sobre la que aplicar esos métodos. Como cualquier análisis estadístico, proporciona una serie de datos cuantitativos sobre la lengua o, mejor dicho, sobre esa 'muestra' de la lengua (el corpus). La interpretación de esos datos es valiosa para la lingüística, para varios campos de la misma (la lexicometría, la semántica, la lexicografía, la gramática...). Poder rastrear una palabra en el tiempo, a través de textos, por ejemplo, permite conocer su 'vida', y poder rastrear muchas palabras permite tener el reflejo de una ideología, de una tendencia social, de una cultura...«.«No sé si sabemos mucho o poco [sobre nuestros lenguajes]. Hasta ahora sabíamos lo que sabíamos. A partir de ahora podremos saber más; está por ver cuánto más. Pero sí, sin duda, nos va a aportar conocimientos nuevos y muy interesantes. La lingüística como disciplina científica es joven aún«.Ana Gorría. Investigadora en formación en el CCHS (CSIC).«De forma natural el desarrollo de las disciplinas estadísticas desarrolladas por las ciencias experimentales hace accesible el trabajo con el corpus, materia privilegiada del trabajo filológico tanto en el análisis lingüístico como literario. Dado que el corpus es un objeto social, la filología ha incluido en su trabajo los hallazgos de científicos sociales como antropólogos para poder enfrentarse al análisis del lenguaje y la literatura con el fin de optimizar resultados a través de aplicaciones específicas que son herramientas que complementan la actualización filológica a través del análisis de los diversos corpora como lo son hoy las bases de datos CORDE y CREA, por ejemplo«.«Como toda metodología, el valor de este tipo de herramientas es instrumental. Su fin último es agilizar desde un punto de vista temporal el trabajo pero no se muestra capaz de sustituir la inteligencia que la filología, como trabajo humanístico, supone frente al análisis lingüístico y literario. Los métodos cuantitativos han de ponerse al servicio, cosa que no siempre sucede dada la naturaleza del mercado académico, de la comprensión y fijación del texto y no han de convertirse en un fin en sí mismos dado que el lenguaje tanto como gesto social como natural supone uno de los mayores misterios a los que puede enfrentarse un investigador. Nuestra capacidad para enfrentarnos a los procesamientos del lenguaje, por ejemplo, dado el desarrollo de las ciencias cognitivas en las últimas décadas, nos sitúa en una sensación de inmenso respeto y admiración ante un gesto tan extraordinario, maravilloso y cotidiano como resulta ser la naturaleza social y biológica del lenguaje. Los filólogos como guardianes del corpus tienen que ser sensibles a integrar en sus métodos de trabajo todas las posibilidades técnicas que hagan todavía más eficaz su tarea que es una tecnología milenaria«.