twitter account

Cómo persiste el sesgo lingüístico en las publicaciones científicas a pesar de las herramientas de IA

17/06/2025

Los investigadores de Stanford destacan los desafíos actuales de la discriminación lingüística en las publicaciones académicas y revelan que las herramientas de IA pueden no ser la solución para los hablantes no nativos.

Por ahora, el inglés sigue siendo la lengua franca de la ciencia indexada, dominando la mayoría de las revistas arbitradas y congresos internacionales. Esto pone a los hablantes no nativos en una desventaja significativa. Si bien los modelos lingüísticos extensos pueden ayudar a los autores a superar algunas barreras lingüísticas, un nuevo estudio realizado por dos investigadores de la Escuela de Posgrado en Educación de Stanford sugiere que el sesgo contra los hablantes no nativos persiste incluso cuando se utilizan estas herramientas.

Los revisores pares, cada vez más atentos al uso de los títulos de maestría en la escritura científica, podrían inferir que su uso está relacionado con el país de origen del autor. Estas inferencias pueden sesgar, consciente o inconscientemente, las evaluaciones científicas de los revisores pares, según una nueva investigación de la doctoranda de Stanford Haley Lepp y el investigador postdoctoral Daniel Scott Smith .

El Instituto Stanford para la IA Centrada en el Ser Humano otorgó una subvención inicial para su investigación, que fue aceptada para su publicación en la conferencia de la Asociación para la Maquinaria de Computación (ACM) de este verano sobre Equidad, Responsabilidad y Transparencia . Su artículo, 'You Cannot Sound Like GPT': Signs of language discrimination and Resistance in computer science publishing, también está disponible en el servidor de preimpresión arXiv.

El trabajo destaca cómo los sesgos lingüísticos pueden persistir incluso con la adopción de herramientas de IA y otras tecnologías.

“Por lo tanto, si se tiene un sesgo subconsciente contra las personas de China, por ejemplo, ese sesgo se manifestará de otras maneras, incluso al adaptar el idioma [con los LLM]. Esa es la conclusión sorprendente de este estudio”, afirmó Lepp.

Los investigadores analizaron casi 80.000 revisiones por pares en una importante conferencia de informática y encontraron evidencia de sesgo contra autores de países donde el inglés es menos hablado. Tras la disponibilidad de ChatGPT, solo se observó un cambio leve en la expresión de dicho sesgo. Mediante entrevistas con 14 participantes de conferencias de todo el mundo, Lepp y Smith descubrieron que los revisores pueden usar frases comunes de LLM en los artículos para inferir los antecedentes lingüísticos de los autores, lo que afecta sus juicios sobre la calidad de la investigación. En general, el estudio muestra cómo ChatGPT podría reforzar los estereotipos que equiparan un buen inglés con un buen trabajo científico.

Lepp, exingeniera de procesamiento del lenguaje natural y profesional de la educación digital, posee una maestría en lingüística computacional de la Universidad de Washington y una licenciatura en ciencia, tecnología y asuntos internacionales de la Universidad de Georgetown. Su investigación se centra actualmente en la influencia del procesamiento del lenguaje natural en la práctica educativa. Smith tiene un doctorado de Stanford y se incorporará como profesora adjunta de sociología en Duke en otoño.

¿Por qué usted y el Dr. Smith decidieron estudiar cómo los LLM ilustran el sesgo en la publicación de revistas científicas y también contribuyen a ese sesgo contra los hablantes no nativos de inglés?

Observamos que las discusiones sobre el uso de maestrías de inglés por parte de científicos se centraban en los autores, no en los lectores. Por lo tanto, la idea de las maestrías como una intervención para los científicos pone la responsabilidad del cambio en los autores cuya lengua materna no es el inglés, en lugar de en las causas fundamentales de los sesgos de los revisores pares.

En educación, existe una rica literatura sobre la ideología lingüística y el papel del oyente o lector en el sesgo lingüístico. Citamos este artículo de Flores y Rosa , quienes describen cómo las variedades lingüísticas racializadas en las escuelas estadounidenses se consideran deficiencias que deben superarse. Incluso cuando los estudiantes cambian su escritura o habla, siguen experimentando sesgo. El origen del sesgo es más profundo que el propio idioma, por lo que nos preguntamos si esta teoría se sostendría entre los científicos internacionales.

Se podría suponer que los LLM podrían ayudar a resolver este problema, pero su artículo indica que ChatGPT solo mitiga ligeramente el sesgo contra los científicos no angloparlantes nativos. ¿Por qué cree que no ha eliminado más dicho sesgo?

La expresión de sesgo se manifestó no tanto en torno a las reglas del inglés académico, sino en torno a lo que la gente asociaba con el tipo de científico que las rompía. Los entrevistados describieron cómo la calidad del lenguaje podría ser un indicador de la calidad científica.

Tras la publicación de ChatGPT, los revisores observaron que las idiosincrasias gramaticales en la escritura, en general, comenzaron a desaparecer. Describieron cómo, en cambio, llegaron a suponer que ciertas palabras o frases comunes en los LLM, como "delve", provenían de autores de países no angloparlantes. Estas suposiciones también solían ir acompañadas de descripciones estereotipadas de científicos de diferentes países.

Mirando más allá de su trabajo, ¿cree que la IA será una tecnología democratizadora o exacerbará la desigualdad?

Depende de tu teoría de la democracia. Daniel Greene y otros han criticado la "doctrina del acceso", que sugiere que facilitar el acceso a la tecnología mejora la democracia. No estoy seguro de creer que el acceso sea inherentemente democratizador. En todo caso, la idea de la IA como democratizadora puede justificar la idea de que las desigualdades sociales existentes se pueden resolver "arreglando" a las personas marginadas, en lugar de analizar cómo las personas en la cima, o incluso las instituciones sociales, podrían estar contribuyendo a las desigualdades. Nuestros hallazgos ofrecen una perspectiva alternativa. Incluso cuando las personas tienen herramientas para actuar más como un grupo social dominante, pueden surgir nuevos mecanismos de estratificación.

¿Qué espera que la gente extraiga del artículo?

Debemos cuestionar la forma en que las personas usan el lenguaje, no solo para comunicar contenido, sino como un indicador de otras cosas: de raza, clase, en quién confiar o en qué conocimiento se puede confiar. En ciencia, la publicación exclusivamente en inglés tiene una larga historia de vínculos con el colonialismo y las instituciones académicas racistas. Para solucionar esto, necesitaremos algo más que una herramienta para ayudar a las personas a producir textos en inglés.

Uno de los aspectos que enfatizamos en el artículo es que los sesgos que identificamos son, en muchos sentidos, herramientas para la eficiencia. La velocidad actual de las publicaciones en informática puede contribuir a que se tomen atajos, evaluando la ciencia con base en el estilo de escritura y la percepción de la trayectoria del autor, en lugar de la ciencia descrita.