Lunes, 20 de noviembre de 2017

UNAM: Lingüística forense ayuda a esclarecer delitos

05/01/2015
Radio Fórmula

La lingüística forense, área de la ingeniería respectiva que relaciona al lenguaje con el foro legal, resuelve problemas como la detección de fraudes o la filtración de información dentro de las empresas, la autoría de un texto o el plagio, entre otros.

En el Instituto de Ingeniería de la UNAM, el Grupo de Ingeniería Lingüística (GIL) que encabeza Gerardo Sierra Martínez se aboca no sólo a esos problemas, sino que ha emprendido estudios de fonética forense para, por ejemplo, determinar cómo una prótesis dental cambia la forma de hablar de una persona y qué serie de trucos se pueden hacer para aparentar otra forma de expresarse.

Incluso, en colaboración con la Universidad de Montreal, pretende detectar, de manera temprana, la enfermedad de Alzheimer mediante el análisis de textos escritos que proporcionen indicios de que una persona tiene retrocesos en su forma de escribir, en el léxico, la gramática o en cómo compone.

En lingüística forense, explicó Sierra Martínez en un comunicado, se plantean temas como argumentación jurídica, fonética forense, detección de paráfrasis, perfil lingüístico, lenguaje de procedimiento judicial, lenguaje legal y atribución de autoría.

Y se resuelven problemas que no pueden ser abordados por una sola persona, por ejemplo, el análisis de 20 mil o 100 mil correos electrónicos de una empresa para detectar si hay filtración de información o se incurre en un fraude.

Un aspecto relevante son las evidencias probatorias, es decir, presentar ante un juez las pruebas, que pueden ser escritas u orales, de que se cometió un delito como la estafa. El problema es encontrarlas en un "mundo" de información que no para de crecer. "¿Es posible detectar, entre 50 mil correos, uno que demuestre que se ha cometido fraude? Es posible y lo hemos hecho".

Asimismo, un problema típico a resolver dentro de esta área es descubrir quién escribió un documento o dijo algo. Por ejemplo, de un mensaje que deja un grupo criminal se puede averiguar el perfil del o los autores por la forma en que se escribe: conocer el género, el grupo etario, el nivel socioeconómico y cultural, y si fueron una o varias personas.

Otro asunto es la detección de plagio o el uso de paráfrasis. De forma objetiva, con matemáticas, números y ciencia "no hay forma de mentir. Es lo que se mide y no hay alternativa".

Dentro de la estilometría hay más de 100 variables para medir la longitud de las palabras, la complejidad de las frases, así como el uso de las palabras funcionales y de signos de puntuación, entre otros aspectos.

En el proceso de comparar automáticamente textos o corpus paralelos, se establece cuáles son las palabras emparentadas. Aquí intervienen cuestiones de morfología, "lo cual no es fácil, porque una palabra en plural, singular, masculino o femenino no se escribe de la misma manera, pero se debe identificar que se trata del mismo vocablo".

Aunque alguien transcriba una tesis con sus propias palabras de principio a fin y le añada una serie de citas e información adicional, e incluso se usen recursos para disfrazar que se trata del mismo documento, siempre habrá cierto léxico que va a coincidir.

Un autor conserva su estilo, por lo que es posible comparar el documento en disputa contra otros, lo que ayuda a determinar la autoría. Este tipo de método, probado en textos literarios, ha funcionado bien.

Las investigaciones se han realizado con patrocinio del Consejo Nacional de Ciencia y Tecnología y la Dirección General de Asuntos del Personal Académico de la UNAM, y se han aplicado para una firma de abogados que solicitó dictámenes de fraudes o para empresas de manejo de información.

Además, se ha tenido un acercamiento con las policías y procuradurías de justicia para ofrecer cursos sobre fonética forense, pues esas instancias tienen buenas herramientas y dispositivos, pero en ocasiones no se les sabe sacar provecho.

De igual modo, está por comenzar una serie de colaboraciones con la Comisión Nacional de Seguridad, que será coordinada por el Grupo de Ingeniería Lingüística de esta casa de estudios y donde participarán expertos de otras instituciones.

El GIL es multidisciplinario y en él convergen estudiantes del área de humanidades y de las ciencias e ingeniería. Además, ahí se desarrollan tecnologías del lenguaje relacionadas con la lexicografía computacional, la minería de textos, la traducción automática, la recuperación de la información y la creación de corpus digitales, entre otras.

Sierra Martínez destacó algunos ejemplos, como un extractor terminológico, donde se ingresa un documento y el sistema indica los términos que le corresponden; "con eso se pueden hacer maravillas, no sólo diccionarios y glosarios, sino una ontología para búsqueda de información", y que en informática hace referencia a la formulación de un exhaustivo y riguroso esquema conceptual dentro de uno o varios dominios dados, con la finalidad de facilitar la comunicación e intercambio de información entre diferentes sistemas y entidades.

También se creó un extractor de las definiciones que se dan a los términos. El sistema, denominado Describe y realizado en inglés, encuentra no sólo lo que se refiere en los diccionarios, sino cualquier página de Internet, por ejemplo, en las noticias. "Si alguien lo definió de una manera, ahí está, lo extrae tal cual".

No sólo proporciona definiciones, sino términos relacionados, las partes y los componentes. El sistema está en proceso de ser patentado en Estados Unidos, por eso se desarrolló en inglés.

En México es marca registrada por la UNAM, porque no se puede patentar un software; un desarrollo de este tipo sólo se registra como derecho de autor, "como si hubieras escrito un libro de poesía".

A las innovaciones anteriores se suman otras, como un resumidor automático, que obtiene las oraciones más relevantes de un texto con las que se puede formar un resumen; asimismo, diccionarios electrónicos donde se buscan no sólo las definiciones, sino los términos asociados.

De igual manera, cuentan con una gran cantidad de corpus lingüísticos -colección de textos, debidamente recopilados, elegidos para cierta investigación- y un analizador morfológico que, por ejemplo, puede identificar lenguas, como el español de México, diferente al de Argentina.

Finalmente, Gerardo Sierra invitó a los interesados en solicitar los servicios -empresas, gobierno y universitarios- o colaborar con el grupo, ubicado en la Torre de Ingeniería.

jgr