twitter account

La RAE presenta las herramientas elaboradas en el marco del proyecto LEIA

24/11/2025

Ha  tenido lugar, en la sede institucional de la Real Academia Española (RAE) en Madrid, la presentación de las herramientas elaboradas en el marco del proyecto LEIA (Lengua Española e Inteligencia Artificial) en un acto en el que han participado el director de la Academia, Santiago Muñoz Machado, la académica y directora del proyecto Asunción Gómez-Pérez y la directora general de Inteligencia Artificial del Ministerio para la Transformación Digital y de la Función Pública, Aleida Alcaide.

Se han dado a conocer las distintas aplicaciones basadas o apoyadas en inteligencia artificial que forman parte de este proyecto ideado e impulsado por la RAE —apoyado por el Ministerio para la Transformación Digital y de la Función Pública, a través de la Secretaría de Estado de Digitalización e Inteligencia Artificial—, cuyo objetivo principal es la defensa, proyección y buen uso del español en el universo digital y, especialmente, en el ámbito de la IA y las tecnologías actuales.

Estos recursos están integrados en la plataforma de LEIA, creada en el marco del proyecto, y constan de un observatorio de palabras del español para la detección de neologismos, derivados, tecnicismos, regionalismos y extranjerismos, entre otros; distintas herramientas de verificación lingüística para la detección de errores ortográficos, léxicos y gramaticales; un sistema de consultas lingüísticas, y un recopilador de la diversidad de las variedades lingüísticas del español según su zona geográfica.

Además, estos desarrollos, que incluyen la mejora de herramientas de regulación de la lengua, se han diseñado pensando en la accesibilidad (con estándares AA y AAA). También se han llevado a cabo labores de digitalización de fondos propios de la Academia y, para apoyar las pruebas e implementación de estas herramientas y acercarlas al público, se han organizado diversos maratones de datos o datatones.

Las herramientas presentadas ya están siendo utilizadas por los equipos de la RAE internamente para su trabajo diario y próximamente podrán ser consultadas, en su versión pública, por toda la comunidad hispanohablante.

Su desarrollo ha contado con la concesión directa de una subvención del Ministerio para la Transformación Digital y de la Función Pública, por valor de 5 millones de euros, a la Real Academia Española en el marco del RD 632/2022 de 26 de julio de 2022, financiado con fondos europeos NextGenerationEU, en el marco del Plan de Recuperación, Transformación y Resiliencia del Gobierno de España, y el Mecanismo de Recuperación y Resiliencia.

La plataforma de LEIA, que se encuentra alojada en una nube privada y alberga gran cantidad de los materiales lingüísticos de la RAE, consta de dos partes diferenciadas: una privada, para el trabajo diario de los departamentos de la institución, y otra pública, a cuyas herramientas podrá acceder próximamente de manera libre y gratuita para su consulta todo aquel que lo desee a través de la página web de la RAE (www.rae.es).

La RAE ya está haciendo uso del observatorio de palabras, una herramienta capaz de detectar automáticamente, de forma diaria y masiva, en el universo digital y a partir de un buen número de fuentes (prensa, redes sociales, boletines…), palabras y expresiones que no están registradas en el Diccionario de la lengua española (DLE). Estos términos pueden ser neologismos, derivados, tecnicismos, regionalismos y extranjerismos, además de otras palabras o expresiones cuyo uso resulte novedoso o pueda suscitar dudas a los hispanohablantes.

A partir de esas fuentes digitales, escritas en español, procedentes de diferentes zonas geográficas y asociadas con distintas temáticas, la inteligencia artificial analiza un millón de formas diarias.

Esta herramienta permite a los equipos de la RAE observar diariamente palabras que puede ser conveniente estudiar. Posteriormente, la plataforma podrá mostrar públicamente una selección de esas palabras en observación con información sobre su uso. Así, el observatorio ofrecerá datos sobre términos de uso actual con comentarios provisionales, ya que, al no estar incluidos algunos de ellos en las obras académicas, podrán verse modificados en el futuro. Es importante señalar que la presencia de una palabra en la parte pública del observatorio solo significa que ha sido detectada y que está en observación.

Otra parte del proyecto es la creación de un sistema de consultas lingüísticas que recopila las dudas y preguntas que llegan a la RAE a través de la red social X o la página web institucional. Gracias a la inteligencia artificial, estas se clasifican automáticamente según su categoría (léxica, morfológica, sintáctica, etc.), lo que reducirá los tiempos de respuesta del equipo de lingüistas de la RAE que las recibirá directamente en la plataforma. La aplicación ofrecerá consultas similares ya respondidas en el pasado para partir de ellas si lo consideran conveniente, o elaborar una respuesta completamente nueva.

En la parte pública el usuario podrá introducir su duda en un buscador, que cuenta con un sistema de autocompletado, y la herramienta buscará esa consulta o consultas similares entre las ya respondidas para ofrecer la información solicitada. En caso de que el sistema aún no tenga una respuesta exacta para la pregunta planteada, el consultante podrá enviarla a través de un formulario y recibirá la contestación personalizada de los lingüistas de la RAE.

Se ha trabajado en la creación de recursos y herramientas orientados a la verificación lingüística automática de textos mediante técnicas de inteligencia artificial.  La verificación lingüística incluye la detección y clasificación de errores de naturaleza ortográfica, léxica, sintáctica y morfológica; las sugerencias de corrección, ya que en ningún caso realizará correcciones automáticas, y las explicaciones con enlaces a la doctrina.

Otra de las herramientas desarrolladas es un recopilador de las distintas variedades lingüísticas de las áreas geográficas donde se habla español. Esta aplicación tiene como objetivo recopilar de forma masiva información lingüística de los hispanohablantes utilizando dinámicas de juegos o retos.

Para hacer esta radiografía de la diversidad de nuestra lengua se ha creado una sección interactiva en la que los hablantes podrán aportar información sobre el uso que hacen del idioma. A través de una interfaz sencilla e intuitiva, el sistema plantea al usuario una serie de preguntas, llamadas retos, para las que presenta una palabra, un texto, una imagen o un audio. La participación ciudadana es clave en este apartado del proyecto, en el que, por ejemplo, los usuarios podrán ver una imagen y describirla con su propia voz, u observar un objeto e indicar cómo lo llaman en su lugar de procedencia.

La aplicación ayuda a detectar, preservar, fomentar e investigar la diversidad lingüística del español en sus distintas áreas geográficas. Los datos obtenidos serán posteriormente analizados por los equipos lingüísticos de la RAE.

Esta plataforma, que permite aprovechar la riqueza lingüística del español para conocerlo aún mejor y en toda su diversidad, ya ha sido probada por el público gracias a un datatón abierto a escolares.

Maratones de datos

Además del desarrollo de la plataforma y las herramientas, el proyecto LEIA busca fomentar un ecosistema colaborativo. Una muestra de ello es que, durante la fase de creación, se han realizado diversos datatones o maratones de datos.

El primero de ellos, desarrollado en la primavera de 2025, contribuyó a la mejora de la herramienta de consultas lingüísticas. Con el fin de perfeccionar la precisión del sistema automático de clasificación, se organizaron por tipología 27 000 preguntas anonimizadas procedentes de la red social X. En el datatón participaron 284 personas, la mayoría estudiantes y profesores de Filología Hispánica de universidades españolas y latinoamericanas, además de diversos expertos en la materia. La convocatoria estaba dirigida a estudiantes de Filología Hispánica con un nivel equivalente o superior al de 3.º o 4.º, así como a lingüistas, lingüistas computacionales, filólogos, profesores de lengua u otros expertos o especialistas de dicho rango.

Las preguntas se clasificaron en cinco categorías: «ortográficas», «morfológicas», «sintácticas», «léxicas» y «varias». Se obtuvieron 20 590 respuestas válidas. Este datatón permitió mejorar el sistema de clasificación de consultas y afinar las respuestas de la herramienta.

El segundo datatón acercó el recopilador de la diversidad del español a las aulas. En él participaron 1500 escolares de 11 años, provenientes de hasta 15 comunidades y ciudades autónomas, tanto de forma telemática como presencial, que pudieron probar de forma masiva la herramienta diseñada. En total, proporcionaron 22 261 respuestas.

Fichas de punto rojo

También se han digitalizado fondos propios de la Academia relacionados con las llamadas fichas de punto rojo, unas papeletas lexicográficas de gran valor que designan la primera documentación que se tiene de una palabra y que deben su nombre al punto rojo característico con las que se marcan para su identificación. En total, se han digitalizado más de 800 000 fichas que próximamente se podrán consultar también públicamente a través de un visor alojado en www.rae.es.

Esta digitalización incluye la imagen de la ficha en formato digital y la extracción de su contenido. Las fichas están almacenadas en la plataforma y son de gran utilidad, por ejemplo, para el equipo del Diccionario histórico de la lengua española.

Las papeletas digitalizadas se han procesado para extraer la máxima información léxica y documental mediante técnicas avanzadas de visión y lenguaje. Durante el trabajo se han acotado las zonas susceptibles de contener información escrita, ya sea manuscrita o mecanografiada, y se han aplicado modelos OCR tradicionales y de reconocimiento basados en LLM multimodales para leer y transcribir el contenido textual de las regiones detectadas.

Por otra parte, las herramientas elaboradas en el marco del proyecto LEIA, tanto internas como externas, se han desarrollado con la intención de que sean accesibles para el mayor número de personas, pensando en una visualización común en todas las interfaces de las aplicaciones, para lo que se ha creado una librería de componentes que siguen las directrices AA y AAA (estándares de accesibilidad). Además, dentro de LEIA también se ha trabajado en la mejora de herramientas tecnológicas de la RAE que se emplean en las labores de regulación de la lengua, con el fin de optimizarlas para la mejor difusión y aplicación de sus contenidos.