ChatGPT aprende aragonés: así se enseña la lengua al futuro digital

Este viernes el Instituto de Investigación en Ingeniería de Aragón (I3A) de la Universidad de Zaragoza acoge un ‘datathon’
Inteligencia Artificial.
Inteligencia Artificial.

El aragonés da un paso hacia la era digital. Este viernes, el Instituto de Investigación en Ingeniería de Aragón (I3A) de la Universidad de Zaragoza acoge un ‘datathon’ que busca recopilar datos lingüísticos para mejorar la presencia de esta lengua en grandes modelos de inteligencia artificial como ChatGPT o Gemini. La iniciativa, organizada por el grupo de investigación Sistemas de Información Distribuidos y con la colaboración del Instituto de l'Aragonés de la Academia Aragonesa de la Lengua, reunirá a voluntarios y especialistas en el edificio I+D del Campus Río Ebro, de 15.00 a 19.00 horas.

El objetivo del encuentro es generar material lingüístico que permita evaluar y perfeccionar la capacidad de los sistemas de IA para trabajar con aragonés. "Se trata de reforzar la presencia digital del aragonés en un ecosistema tecnológico donde la disponibilidad de datos lingüísticos condiciona el desarrollo de estas herramientas", explican los organizadores.

La iniciativa forma parte de la tesis doctoral del investigador Miguel López Otal, dirigida por el profesor Jorge Gracia del Río, ambos miembros del grupo de Sistemas de Información Distribuidos. Además, cuenta con el asesoramiento de Juan Pablo Martínez, director del Instituto de l'Aragonés y también miembro del I3A. En total, unas veinte personas se han inscrito en la actividad, de las cuales trece participarán presencialmente en esta primera sesión.

MÁS DE 10.000 ORACIONES TRADUCIDAS

Durante la jornada, los participantes revisarán más de 10.000 oraciones traducidas automáticamente del español al aragonés mediante la herramienta Apertium. Los voluntarios deberán verificar la corrección de estas traducciones y, en caso de detectar errores, corregirlos. Este proceso combina la traducción automática con la supervisión humana, un método habitual en el desarrollo de recursos lingüísticos para inteligencia artificial. Aunque las herramientas automáticas pueden generar resultados adecuados en muchos casos, requieren la revisión de hablantes o expertos para garantizar la calidad.

Los datos recopilados se publicarán posteriormente de manera abierta en internet, con el objetivo de facilitar su uso en investigaciones y proyectos relacionados con el procesamiento del lenguaje natural en aragonés. Esta estrategia busca contribuir a que los modelos de lenguaje comprendan y generen textos en esta lengua romance, cuya presencia digital sigue siendo limitada por la escasez de corpus lingüísticos disponibles.

La situación del aragonés es delicada. Según estudios recientes, la UNESCO lo considera seriamente amenazado, aunque mantiene una comunidad de hablantes comprometida con su conservación y promoción. En este contexto, los organizadores subrayan la importancia de implicar a la comunidad lingüística en proyectos tecnológicos, con el fin de garantizar que el aragonés tenga presencia en las herramientas digitales del futuro.

Comentarios