twitter account

El misterio de la ley de Zipf y el lenguaje

16/02/2022
@wicho

El lenguaje está sujeto a relaciones matemáticas que se vinculan con aspectos aún poco conocidos del funcionamiento del cerebro humano

La ley de Zipf debe su nombre al lingüista y filólogo estadounidense George Kingsley Zipf, aunque la regularidad que describe parece haber sido vista antes por el esteganógrafo Jean-Baptiste Estoup y por el físico Felix Auerbach.

La ley de Zipf dice que la inmensa mayoría de las veces en un texto o conversación cualquiera la segunda palabra más usada de un idioma aparecerá la mitad de veces que la palabra más usada, la tercera palabra más usada un tercio de veces que la más usada, la cuarta palabra más usada un cuarto de veces que la más usada, y así sucesivamente.

En español, por ejemplo, las diez palabras más frecuentes según la RAE son de, la, que, el, en, y, a, los, se, del. Esto quiere decir que la palabra «la» aparece la mitad de veces que la palabra «de», que la palabra «que» aparece un tercio de veces que «de», «e» un cuarto de veces, etc, al menos en textos normales.

La ley de Zipf es una ley de potencias, lo que quiere decir que da igual el tamaño del texto que estemos estudiando y que esta proporción en la frecuencia de aparición de las palabras siempre se cumple. Así que da igual que hablemos del conjunto de todo lo publicado en ese idioma, de los libros de un autor determinado, de un libro en concreto, de una revista, o de un artículo.

Y por si esto fuera ya poco curioso de por sí resulta que la ley de Zipf se aplica a todos los idiomas, independientemente de la familia a la que pertenezcan.

Esto sugiere que es algo que tiene mucho que ver con cómo nuestro cerebro procesa el lenguaje, que esta forma de procesarlo es independiente de factores culturales, y que parece que más bien tendría que ver con economizar recursos a la hora de realizar este procesamiento, ya que las palabras más frecuentes de un idioma resultan ser palabras invisibles, también conocidas como palabras funcionales, aquellas palabras en las que no solemos pensar pero de las que cuelga el entramado entero del lenguaje humano.

Las palabras invisibles nos permiten saber cómo está estructurado un idioma y, por ejemplo, identificar un texto en español, aunque el resto de las palabras nos resulten ininteligibles. Incluso, por lo visto, un bebé de nueve meses ya está intentando identificar estas palabras pequeñas aún dentro del vientre de su madre.

Date unos diez segundos para contar las efes que aparecen en el siguiente texto:

Finished files are the result of years of scientific study combined with the experience of years.

Es posible que si el inglés no es tu lengua materna hayas encontrado las seis que hay, pero un nativo inglés típicamente cuenta tres porque se salta los tres of que hay en la frase. Directamente no los ve.

Así que nuestro cerebro –el cerebro de cualquier ser humano, hable el idioma que hable– podría no prestarle demasiada atención a esas palabras frecuentes pero «invisibles» que dotan de estructura al idioma para centrarse en aquellas otras palabras que aparecen con menos frecuencia y que llevan el mensaje que se está intentando comunicar, economizando así recursos.

Además el que el uso de las palabras parezca obedecer a una conexión preferencial, ya que si una palabra es utilizada tiene más probabilidades de ser utilizada de nuevo pronto, parece reforzar esta teoría de minimizar recursos, ya que mientras el texto o la conversación traten sobre un tema determinado tenderán a usar un conjunto limitado y repetido de palabras.

Pero esto no dejan de ser elucubraciones; en estos momentos no tenemos una explicación clara de por qué esto pasa, entre otras cosas porque no sabemos todo lo que hay que saber de cómo funciona nuestro cerebro en muchos aspectos, uno de ellos el del procesamiento del lenguaje.