Doktorego tesiaren defentsa: Cross-lingual Transfer for Low-Resource Natural Language Processing
Lehenengo argitaratze data: 2025/02/11
Egilea: Iker García Ferrero
Izenburua: Cross-lingual Transfer for Low-Resource Natural Language Processing
Zuzendariak: German Rigau Claramunt / Rodrigo Agerri Gascón
Eguna: 2025ko otsailaren 12an
Ordua: 11:00h
Lekua: Ada Lovelace aretoa (Informatikako fakultatea)
Abstract:
"Hizkuntzaren Prozesamenduan aurrerapen nabarmenak ikusi dira azken urteetan, bereziki ataza askotan aurrekaririk gabeko errendimendua lortu duten Hizkuntza Eredu Handien agerpenarekin. Hala ere, garapen hauek batez ere baliabide handiko hizkuntza gutxi batzuen onurarako izan dira, ingelesa kasu. Hizkuntza gehienek oraindik ere erronka handiei aurre egin behar diete entrenamendu-datuen eta baliabide konputazionalen urritasuna dela eta. Arazo honi aurre egiteko, tesi honek hizkuntzen arteko transferentzia-ikasketan jartzen du arreta, hots, baliabide handiko hizkuntzetako datuak eta ereduak aprobetxatuz baliabide urriko Hizkuntzetarako Prozesamenduanaren errendimendua hobetzea helburu duen ikerketa-arloan. Zehazki, Sekuentzia Etiketatze atazetan zentratzen gara, hala nola Izendun Entitateen Erauzketan, Iritzien Xedeen Erauzketan eta Argudio Meatzaritzan.
Ikerketa hiru helburu nagusiren inguruan egituratzen da: (1) datuetan oinarritutako hizkuntzen arteko transferentzia-ikasketa metodoak hobetzea itzulpen eta anotazio-proiekzio tekniken bidez, (2) ereduetan oinarritutako transferentzia-ikasketa hurbilpenak garatzea puntako eredu eleaniztunak erabiliz, eta (3) metodo hauek benetako arazoei aplikatzea, baliabide urriko Hizkuntzetarako Prozesamenduan etorkizuneko ikerketa erraztuko duten kode irekiko baliabideak sortuz.
Zehazki, datuen transferentzia hobetzen dugu T-Projection bidez, testutik testurako eredu eleaniztunak eta itzulpen automatikoko sistemak erabiltzen dituen puntako anotazio-proiekzio metodoa. T-Projection metodoak nabarmen gainditzen ditu aurreko anotazio-proiekzio metodoak. Ereduetan oinarritutako transferentziarako, deskodifikazio murriztuko algoritmo bat aurkezten dugu, zero-shot testuinguruetan hizkuntzen arteko Sekuentzia Etiketatzea hobetzen duena testutik testurako ereduak erabiliz. Azkenik, Medical mT5 garatu dugu, testutik testurako lehen eredu mediko eleaniztuna, gure ikerketaren eragin praktikoa erakutsiz benetako aplikazioetan."