Breadcrumb

DIFusio@

2024-02-29; 10: 30 Doktorego tesi baten defentsa, Aitor Ormazabal Oregi

Irudia

Aitor Ormazabal Oregi : “Towards general attribute controllability in NLP models”               

Zuzendariak / Directores:  Eneko Agirre Bengoa / Mikel Artetxe Zurutuza

2024-02-29, 10: 30:  Sala Ada Lovelace aretoa

Abstract:

"Ikasketa sakoneko metodologian eta konputazio-azpiegituretan egindako aurrerapenek emaitza ikusgarriak ekarri dituzte Hizkuntzaren Prozesamenduaren arloan azken urteotan. Hala ere, metodo hauek jarraitzen duten oinarrizko paradigma ez da asko aldatu azken hamarkadan. Ikasketa sakoneko ereduek beren portaera datu multzotik eta ikasketa-helburutik eratortzen dute oso-osorik, eta askotan ez dute inolako mekanismorik eskaintzen beren irteerak kontrolatzeko. Beraz, ereduaren irteeraren atributu jakin bat kontrolatu nahi bada, nahi den atributua esplizituki adierazten duten datuak bildu behar dira, eta hori ez da beti bideragarria edo praktikoa.

Tesi honen helburua arazo honi aurre egitea da, datu gehiago bildu eta eredua berriro entrenatu behar izan gabe ereduen irteerako hainbat atributu kontrolatzea ahalbidetzen duten metodoak diseinatuz.

Tesiaren lehen atalean, gainbegiratu gabeko metodoetan zentratuko gara, nahi den atributua adierazten duten datuak eskuragarri ez daudenean erabili daitezkeenak. Hiru metodo garatzen ditugu arkitektura desberdinetarako.

Lehenik, entrenamenduan zehar hitz-bektore estatikoen lerrokaketa kontrolatzeko metodo bat proposatzen dugu, inolako gainbegiratze elebidunik gabe funtzionatzen duena, eta artearen egoerako---argitalpen unean---gainbegiratu gabeko hitz-bektore elebidunak entrenatzeko erabiltzen dugu.

Bigarrenik, informazio-mugatzearen teknika baliatzen dugu, ikasketa antagonikoarekin batera, kodetzaile-deskodetzaile eredu baten adierazpen kodetuaren informazio-edukia kontrolatzeko, eta corpus elebidunetatik abiatuta parafrasi-sistema bat garatzeko aplikatzen dugu. Matematikoki frogatzen dugu gure metodoak  pibote bidezko itzulpen automatikoan oinarritutako metodoen berezko arazoak arintzen dituela, eta parafrasietan aniztasunaren eta fideltasunaren arteko trukea kontrolatzeko modu naturala eskaintzen duela.

Hirugarrenik, kontrol-kodeen erabilera aztertzen dugu, sortutako testuaren metrika eta errima kontrolatzea ahalbidetzen duen hizkuntza-eredu bat entrenatzeko. Teknika hau baliatzen dugu PoeLM garatzeko, euskarazko eta gaztelaniazko poesia-sorkuntza eredu bat. Lehen aldiz erakusten dugu kontrol kodeak erabil daitezkeela mota honetako atributu xeheak zehazki kontrolatzeko, eta gure metodoa ebaluazio automatikoen eta giza ebaluazioaren bidez ebaluatzen dugu. Giza ebaluatzaileek PoeLMek sortutako poema laburrak giza boluntario ez-adituek idatzitakoekin alderatzean sarritan berdin baloratzen dituztela edo nahiago dituztela frogatzen dugu. 

Arkitektura eta atributu desberdinetarako gainbegiratu gabeko hainbat metodo garatu ondoren, tesi honen bigarren zatia hizkuntza-ereduen egokitzerako metodo orokor baten garapenean zentratzen da. Bereziki, kutxa-beltz ereduetan zentratzen gara, non ereduaren barne-funtzionamendua atzitu edo eraldatzea ezinezkoa den. Eszenatoki hau bereziki garrantzitsua bihurtu da azken urteotan, non, egungo ereduen eskala erraldoia dela eta,  edo APIen atzean ezkutatzen diren ereduen hedapena dela eta, sarritan ereduaren parametroak edo barne-funtzionamendua ezin den eraldatu. Horretarako, CombLM aurkezten dugu, kutxa-beltz hizkuntza-ereduak egokitzeko metodo bat. Lehenik eta behin eredu "aditu"  txiki bat entrenatzen dugu helburuko ataza edo domeinuan, eta ondoren kutxa-beltz ereduarekin konbinatzen dugu probabilitate mailan, ikasitako konbinaketa-funtzio baten bidez. Gure hurbilpenak eredu handien ezagutza orokorra baliatzeko aukera ematen digu, domeinu eta zeregin berrietara egokitzeko malgutasuna mantenduz. Eredu handi bat hainbat domeinu berrietara eta itzulpen automatiko ataza batera egokituz gure hurbilpenaren eraginkortasuna frogatzen dugu."


Gaika filtratu