twitter account

Analizan millones de libros extraen
conclusiones

11/01/2011

Guillermo Cárdenas Guzmán, El UniversalMediante un programa informático, el equipo de expertos utilizó el ambicioso proyecto de Google enfocado a capturar en formato digital todos los libros publicados en el mundo para analizar la frecuencia, cambios, auge y declive en el uso de ciertas palabras o frases a través del tiempo. Con este trabajo, difundido en Science, los investigadores pretenden cimentar una nueva ciencia, a la que llaman culturomics («culturomía»), dedicada al análisis cuantitativo y riguroso de tendencias culturales.El algoritmo, denominado Bookworm (ratón de biblioteca en inglés) se fundamenta en análisis estadísticos tomados de la biología evolutiva. Opera sobre una base de datos integrada por más de cinco millones de volúmenes virtuales de los más de 15 millones que Google ha digitalizado hasta la fecha. Esto es: usaron como referencia sólo el 4% de los libros publicados en la historia de la humanidad, desde la Biblia de Gutenberg a los títulos más recientes difundidos hasta el 2000.Con esta herramienta, el equipo liderado por Jean-Baptiste Michele, de la Universidad de Harvard, ha ejecutado una primera exploración que tomó como plataforma la producción literaria digitalizada en idioma inglés durante los siglos XIX y XX. Esta arrojó resultados muy peculiares: por ejemplo, hallaron casi 300 mil palabras que no figuran en ningún diccionario de esa lengua, como deletable o slenthem.Corrientes e ideologíasTambién rastrearon el ascenso y caída de ciertas ideologías o teorías, de personajes famosos, así como la existencia de periodos de prohibición contra las obras de determinados autores. Por ejemplo, contra artistas e intelectuales judíos o republicanos durante el nazismo (década de los 40 del siglo XX). Igualmente descubrieron casos de censura que ningún historiador había documentado antes, como la sufrida por el libro Mi lucha, del propio Adolf Hitler (en su traducción francesa anotada) en 1938, por parte de las autoridades de ese régimen totalitario.«Sondeamos el vasto territorio de la culturomía en fenómenos lingüísticos y culturales que fueron reflejados en el idioma inglés entre 1800 y 2000. Mostramos cómo esta aproximación puede proporcionar atisbos en terrenos tan diversos como la lexicografía, la evolución de la gramática, la memoria colectiva, la adopción de tecnología, la persecución de la fama, la censura y la historia de la epidemiología», escriben los autores en su artículo titulado Análisis cuantitativo de la cultura a través de millones de libros digitalizados.El programa opera como otros similares para la minería de datos con la meta de extraer información relevante que se encuentra implícita en las bases de datos. Permite analizar la frecuencia de cualquier palabra (o frase de hasta cinco palabras), al contabilizar cuántas veces aparecen y luego divide esa cifra entre el número total de las que se tienen registradas en el corpus. Los resultados se plasman en gráficas que exhiben los altibajos a lo largo del tiempo.Pero a diferencia de las bases de datos de empresas o instituciones, las de los libros digitales de Google no siempre son uniformes, lo cual implicó retos mayores. Por ello, los autores del proyecto reconocen que puede tener limitaciones. Es difícil precisar, por ejemplo, si el interés por una enfermedad en una fecha, expresado en una mayor frecuencia de menciones en los libros, experimentó un aumento a consecuencia de una epidemia o, al contrario, debido al hallazgo de un tratamiento.Para lidiar con estos inconvenientes, el equipo de expertos aplicó varios filtros y métodos para descartar ambigüedades (como nombres iguales que se refieren a diferentes individuos o viceversa), para cruzar y corroborar la información de las fuentes (entre las que se incluye a otras plataformas digitales como Wikipedia y la Encyclopedia Britannica), así como para depurar los datos usados y organizar los resultados de manera que se evitaran prejuicios.Así, confirmaron estadísticamente que a partir de 1945 conceptos como «genocidio», «holocausto» y «limpieza étnica» —que no figuraban en fechas anteriores en las obras en inglés— tuvieron un ascenso constante y pronunciado en su frecuencia de uso, en coincidencia con el auge del movimiento nazi y después durante la Segunda Guerra Mundial. Algo similar descubrieron con la repetición de alusiones a ideologías como «capitalismo» y «comunismo», que tuvieron picos en los años 50 y 60 del siglo XX y comenzaron a declinar a partir de los 70.Para investigar la censura nazi, los expertos se apoyaron en diversas listas negras alemanas de intelectuales «indeseables» (como la del bibliotecario Wolfgan Hermann) e hicieron una relación que inicialmente contenía más de 50 mil individuos. Luego depuraron los datos y validaron sus resultados con apoyo de un anotador independiente, al que mostraron 100 nombres, divididos en dos grupos de 50 (los censurados y los favorecidos por los inquisidores fascistas) para que los valorara.Tras comparar los resultados vieron que en el primer caso la correspondencia entre los autores seleccionados automáticamente con el programa y los escogidos uno a uno por el académico independiente —experto en literatura alemana y hebrea— fue de 81%; en el segundo caso, la coincidencia llegó a 93%. Entre los censurados figuraron nombres como Pablo Picasso, Walter Gropius y Hermann Maas. «Estos hallazgos confirman que nuestro método computacional provee una estrategia eficaz para identificar con rapidez a probables víctimas de censura, dada una amplia gama de posibilidades», remarcan los investigadores.