Breadcrumb

DIFusio@

2022-03-04 DOKTOREGO TESI BATEN DEFENTSA ANDONI AZPEITIA

Lehenengo argitaratze data: 2022/02/25

Irudia

Andoni Azpeitia Zaldua :   ”Datuen Ustiapena Itzulpen Automatikorako”.

Zuzendariak_Directores: Eneko Aguirre Bengoa/ María Aranzazu  del Pozo Echezarreta.

2022_03_04, 11:00  Sala Ada Lovelace aretoa.

Abstract:

Datuetan oinarritutako itzulpen automatikoa, lehendabizi itzulpen automatiko estatistikoarekin (SMT) eta gero itzulpen automatiko neuronalarekin (NMT), azken urteotan gailendutako paradigma da. Sistema hauek corpus paraleloak erabiliz (testu berbera bi hizkuntza ezberdinetan lantzen duten datu bildumak) elikatzen dira entrenamendu prozesu batean. Itzulpen automatikoaren abantaila nagusia itzulpen berriak egin ahal izateko jakintza automatikoki erauzten dela da, baina tamalez, jakintza orokortzeko ahalmena entrenamendurako corpuseko adibideek mugatzen dute.

Tesi honen helburu nagusia corpus paraleloen kalitatea hobetzea da hiru alderdi landuz: corpus tamaina handituz, corpusen datuak domeinura egokituz eta datu multzo zaratatsuak iragaziz. Kalitatezko corpusak sortzeko lau ikerketa lerrotan egindako lanak aurkezten dira: dokumentuen lerrokatzea, esaldien lerrokatzea, datuen aukeraketa eta esaldi paraleloen iragazpena. Ikerketa guztiak enpresek finantzatutako proiektuen testuinguruan egin dira, kalitateaz gain, eramangarritasun helburua ere oso kontutan eduki delarik tesian zehar.

Dokumentuak lerrokatzeko ikerketa lerroan, dokumentuen konparagarritasuna neurtzeko metrika bat proposatzen da. Metrika hau oso eraginkorra izan ezezik guztiz eramangarria da, inolako eredurik entrenatu behar izan gabe testuko terminoak konparatzen baititu hizkuntzarekiko independenteak diren metodoak erabiliz. Esaldien lerrokatzeari dagokionez, dokumentuak lerrokatzeko proposatutako antzekotasun metrika egokitu da, esaldietan dokumentuetan baino informazio gutxiago dagoela kontutan hartuz. Datuen aukeraketan, ugariagoak diren corpusetan testu multzo baliagarriak aukeratzeko testuko terminoen maiztasun erlatiboaren erabilera aztertu da. Aurreko ikerlerroetan proposaturiko metodoen antzera, emaitza lehiakorrak lortu dira eramangarritasuna alde batera utzi gabe. Azkenik, esaldi paraleloen iragazpena esaldien lerrokatzearen kasu berezi bat bezala landu da, bi esaldiren arteko antzekotasun maila iragazpena egiteko ustiatuz.

Egindako ikerketen baliagarritasuna aztertzeko esperimentu ugari egin dira artearen egoerako beste sistemekin konparaketak eginez eskuragarri dauden corpus libreak erabiliz, kasu askotan artearen egoera hobetzea lortu delarik. Esaldi konparagarrien lerrokatzearen kasuan, nazioarteko ataza batean emaitza onenak lortu ziren bi urtez jarraian. %Emaitzak nazioarteko kongresutan argitaratu dira. Azkenik, garatutako esaldien lerrokatze metodoa erabiliz, albisteen domeinuan euskaraz eta gaztelaniaz idatzitako itzulpenak biltzen dituen ia 600.000 esaldi paraleloko corpus lerrokatu bat sortu eta komunitatearekin elkarbanatu da.


Gaika filtratu