Investigadores de UNEATLANTICO realizan un modelo de lematización basado en redes neuronales para el idioma urdu

17 Ene 2024
Investigadores de UNEATLANTICO realizan un modelo de lematización basado en redes neuronales para el idioma urdu

Investigadores de la Universidad Europea del Atlántico (UNEATLANTICO) junto con la Universidad Internacional Iberoamericana (UNIB) realizan un estudio que presenta un algoritmo de lematización para el idioma urdu.

En el ámbito del procesamiento del lenguaje natural (PNL), la traducción automática (TA) optimiza la comunicación entre las personas al cerrar la brecha lingüística. En la traducción automática la normalización y los análisis morfológicos son importantes módulos para la recuperación de información (IR).

Se suele usar la derivación y la lematización como técnicas para encontrar la raíz correcta de las palabras de un idioma. Pero, hay estudios sobre sistemas de IR para el idioma urdu que evidencian que la lematización es más eficiente que la derivación, dado a los infijos que están presentes en las palabras urdu. En la semántica, el objetivo de la lematización es agrupar las formas flexionadas de una palabra para descomponerlas en una forma común y analizarlas como un término básico. En otras palabras, consiste en eliminar las terminaciones flexivas de las palabras para devolverles su forma base.

Existen pocos estudios sobre la lematización del urdu y dichos estudios suelen enfocarse en las reglas, dejando a un lado aspectos elementales como la identificación de sustantivos, el manejo de palabras vacías, préstamos, entre otros. Por ello, el objetivo de esta investigación es presentar un algoritmo de lematización mejorado basado en modelos de redes neuronales corrientes para el idioma urdu. Enfocándose principalmente en la detección de nombres propios; la lematización de palabras morfológicas urdu flexivas y derivativas, entre otros.

Resultados de la investigación 

Los resultados demostraron que este modelo propuesto tiene la capacidad de abordar áreas faltantes de lematización urdu, tal como el manejo de préstamos, palabras vacías, identificación de sustantivos y palabras urdu con signos diacríticos. Así mismo, este modelo maneja eficientemente la lematización de palabras morfológicas urdu flexivas y derivativas.

La integración del modelo AFED mejoró en gran medida el rendimiento del sistema alcanzando una exactitud, precisión, recuperación y puntuación F de 0,96, 0,95, 0,95 y 0,95 respectivamente.

Si quieres conocer más sobre este fascinante estudio, clic aquí.

Para leer más investigaciones, consulta el repositorio de UNEATLANTICO.