Ruta de navegación

DIFusio@

Defensa de tesis doctoral: Cross-lingual Transfer for Low-Resource Natural Language Processing

Autor: Iker García Ferrero

Tesis: Cross-lingual Transfer for Low-Resource Natural Language Processing

Directores: German Rigau Claramunt / Rodrigo Agerri Gascón

Día: 12 de febrero de 2025
Hora: 11:00h
Lugar: sala Ada Lovelace (Facultad de informática)

Abstract:

"El Procesamiento del Lenguaje Natural (PLN) ha experimentado avances notables en los últimos años, particularmente con la aparición de Modelos de Lenguaje de Gran Tamaño que han logrado un rendimiento sin precedentes en numerosas tareas. Sin embargo, estos desarrollos han beneficiado principalmente a un pequeño número de idiomas con abundantes recursos, como el inglés. Así, la mayoría de los idiomas aún se enfrentan a desafíos significativos debido a la escasez de datos de entrenamiento y recursos computacionales. Para abordar este problema, esta tesis se centra en el aprendizaje por transferencia crosslingüe, un área de investigación destinada a aprovechar los datos y modelos de idiomas con abundantes recursos para mejorar el rendimiento del PLN en idiomas con recursos más limitados. Específicamente, nos esta tesis se enfoca en tareas de Etiquetado Secuencial como el Reconocimiento de Entidades Nombradas, la Extracción de Foco  de Opinión y la Minería de Argumentos.

La investigación se estructura en torno a tres objetivos principales: (1) avanzar en los métodos de aprendizaje por transferencia crosslingüe basados en datos mediante técnicas mejoradas de traducción y proyección de anotaciones, (2) desarrollar enfoques mejorados de aprendizaje por transferencia basados modelos multilingües de última generación, y (3) aplicar estos métodos a problemas del mundo real mediante la creación de recursos de código abierto que faciliten la investigación futura en PLN con recursos limitados.

Más concretamente, en esta tesis se presenta un nuevo método para mejorar la transferencia basada en datos con T-Projection, una técnica de proyección de anotaciones de última generación que aprovecha los modelos multilingües texto-a-texto y los sistemas de traducción automática. T-Projection supera significativamente todos los métodos anteriores de proyección de anotaciones. Para la transferencia basada en modelos, introducimos un algoritmo de decodificación restringida que mejora el Etiquetado Secuencial crosslingüe en entornos sin recursos utilizando modelos texto-a-texto. Finalmente, desarrollamos Medical mT5, el primer modelo médico multilingüe texto-a-texto, demostrando el impacto práctico de nuestra investigación en aplicaciones del mundo real."


Filtro por temas