Nora Aranbarri doktorea (UPV/EHU)

Nora Aranberri (UPV/EHU) hizkuntza naturalaren prozesamenduari buruzko IXA ikerketa-taldeko ikertzailea da (http://ixa.si.ehu.es/), eta UPV/EHUko Bilboko Hezkuntza Fakultateko irakaslea. Itzulpen automatikoan aditua da, eta arlo horretan interes nagusia itzulpen-sistemetan hizkuntza-ezagutza integratzea eta hori ebaluatzea da. Itzultzaile profesionalen eta erabiltzaile ez-profesionalen erabilera du aztergai nagusi. Bere azterketa-hizkuntzen artean euskara nabarmentzen da, nahiz eta ez hori bakarrik, eta, hala, hizkuntza gutxituekin itzulpen automatikoak zer aukera dituen aztertzen du. Itzultzaile profesionalei eta ikastunei zuzenduriko post-edizioari buruzko tailer praktikoak zuzendu ditu eta Euskal Itzultzaile, Zuzentzaile eta Interpreteen Elkartearekin kolaboratzen du.

Corpus paraleloak eta itzulpen automatikoa: aukerak, erronkak eta… euskara

Corpus paraleloak funtsezkoak dira hizkuntza naturala prozesatzeko aplikazio ugari garatu eta ebaluatzeko. Kasu askotan, ordea, erronka handia da corpus paralelo egokiak konpilatzea. Hitzaldi honetan, itzulpen automatikoa (IA) garatu eta ezartzeko etapak aztertuko dira, zeinetan corpus paraleloek funtsezko rola betetzen duten. Lehenik eta behin, itzulpen-sistemak garatzeko behar diren datuen ezaugarriak hartuko ditut kontuan. Ikertzaileek corpus paraleloak nola sortu dituzten aztertuko dut, arreta berezia eskainiz eskuz eta automatikoki sortutako corpusei, eta alderantzizko itzulpenak etapa honetan dituen ondorioak eztabaidatuko ditut. Bigarrenik, ezarpen-etapan corpus paraleloak erabiltzeko behar diren baldintzak aztertuko ditut, erabiltzaileek IAren onurak jaso ditzaten. Halaber, corpus konpilatuak aztertuko ditut, itzultzaile profesionalek eta erabiltzaile ez profesionalek IA erabiltzen duten moduari buruzko ondorioak ateratzeko. Aurkezpenean, euskara duten adibideak aipatuko ditut, ikerketa-baliabide gutxi dituen hizkuntza gutxitu batekin lan egiteak dituen ondorioak azpimarratzeko.

Xavier Gómez Guivonart doktorea (Vigoko Unibertsitatea)

Xavier Gómez Guinovart hizkuntzalaritza konputazionaleko irakaslea da Vigoko Unibertsitatean, eta TALG (Tecnoloxías e Aplicacións da Lingua Galega) ikerketa taldearen koordinatzailea; talde horrek gidatzen ditu, hain zuzen ere, hizkuntzalaritza informatikoko eskoletako jarduerak (http://sli.uvigo.gal). Gómez Guinovarten interesguneak dira, besteak beste, informatikaren hizkuntza-aplikazioak, baliabide lexiko eleanitzak eta ontologiak garatzea eta corpus paralelo eta espezializatuak sortu eta ustiatzea. Hizkuntza galegoaren teknologien eremuan, hainbat dira ikertzaile nagusi gisa zuzendu dituen proiektuak. Hainbat ikerketa saretako partaide da, eta jarduera zientifikoak eta aldizkari akademikoak antolatzen nahiz ebaluatzen aritzen da. Hala, Linguamática (http://linguamatica.com) aldizkariaren editorea da. Aldizkariak Iberiar Penintsulako berezko hizkuntzen prozesamendu konputazionala du aztergai.

Sare semantikoak corpus paraleloen sorkuntzan eta ustiapenean

Hitzaldi honetan, Vigoko Unibertsitateko hizkuntzalaritza informatikoko eskoletan corpus paraleloen inguruan egiten ari garen ikerketa batzuen ingurukoak azalduko ditut. Aurkezpenaren helburua izango da azaltzea nola integratzen dugun WordNet-ek emandako informazio lexiko-semantikoa CLUVI corpusaren eta SensoGal corpusaren sorkuntzan eta ustiapenean. Integrazio horren ondorioz, bi aldeek probesten dituzte baliabideak bi norabidetan: corpus paralelotik WordNet-era eta WordNet-etik corpus paralelora.

Hala, batetik, baliokidetzak erauzteko hainbat teknika aplika daitezke corpus paraleloetan, horrela, lerrokatutako hizkuntzen wordneten estaldura lexikoa zabaltzeko. Era berean, corpus paraleloak erabili daitezke sarean bildutako kontzeptuen WordNet-testuinguruak lortzeko, betiere corpusa tratamendu semantiko egoki batekin prozesatu baldin bada aldez aurretik.

Bestetik, hainbat modutan balia daiteke WordNet corpus paraleloak maila lexikoan lerrokatzeko eta etiketatze lexiko-semantikoa egiteko. Adibidez, WordNet-eko harreman semantikoen grafoa erabil daiteke etiketatzaile semantikoak sortu eta horiek corpus paraleloen desanbiguatze lexikoan aplikatzeko. Bestelako teknikak baliatuta baina helburu bererako erabili da SemCor corpusa hizkuntza ingelesean. Princeton Unibertsitatean WordNet ingelesa garatu zuen talde berberak burutu du SemCor corpusaren anotazio semantikoa.

Hitzaldian, abian den ikerketa honen askotariko alderdien ikuspegi zabal bat emango dut, corpus paraleloen sorkuntzan eta ustiaketan anotazio semantiko-lexikoak izan ditzakeen onurak azaltzea helburu.

 

Erreferentzia bibliografikoak

Gómez Guinovart, Xavier eta Miguel Anxo Solla Portela (2020): Construction of a WordNet-basedmultilingual lexical ontology for Galician. In María José Domínguez Vázquez, Mónica Mirazo Balsa eta Carlos Valcárcel Riveiro (ed.): Studies on Multilingual Lexicography, De Gruyter, Berlin & Boston, 179-196. DOI: https://doi.org/10.1515/9783110607659.

Gómez Guinovart, Xavier (2019): Enriching parallel corpora with multimedia and lexical semantics: From the CLUVI Corpus toWordNet and SemCor. In Irene Doval eta M. Teresa Sánchez Nieto (ed.), Parallel Corpora for Contrastive and Translation Studies: New resources and applications, John Benjamins, Amsterdam, 141-158. DOI: https://doi.org/10.1075/scl.90.09gom.

Simões, Alberto eta Xavier Gómez Guinovart (2018): Extending the Galician wordnet using a multilingual Bible through lexical alignment and semantic annotation. In Pedro Rangel Henriques, José Paulo Leal, António Menezes Leitão eta Xavier Gómez Guinovart (ed.): 7th Symposium on Languages, Applications and Technologies (SLATE 2018), SchlossDagstuhl/Leibniz-Zentrum fuer Informatik, Dagstuhl, 14:1-14:13. DOI: https://doi.org/10.4230/OASIcs.SLATE.2018.14.

Gómez Guinovart, Xavier eta Miguel Anxo Solla Portela (2018): Building the Galician wordnet: Methods and applications. Language Resources and Evaluation, 52:1, 317-339. DOI: https://doi.org/10.1007/s10579-017-9408-5.

Signe Oksefjell Ebeling doktorea (Osloko Unibertsitatea)

Signe Oksefjell Ebeling Ingeles Filologiako katedraduna da Osloko Unibertsitatean (Norvegia). Corpusean oinarritutako hizkuntzalaritza kontrastiboa du ikergai nagusi, besteak beste, aditzaren semantika, fraseologia edo idiomatikotasuna. Gai horiei buruzko hainbat artikulu argitaratu ditu, baita Patterns in Contrast (2013) izeneko lan monografikoa ere, J. Ebelingekin batera. Azterketa kontrastiboei buruzko zenbait lan argitaratu ditu, eta Languages in Contrast aldizkariaren editore izan zen (H. Hasselgårdekin batera) 2014tik 2019ra. Corpusei buruzko hainbat proiektutako kide izan da, hala nola English-Norwegian Parallel Corpus (ENPC), haren luzapena den English-Norwegian Parallel Corpus+ (ENPC+) eta Oslo Multilingual Corpus (OMC). Bi corpus konparagarri konpilatzen ari da gaur egun: English-Norwegian Match Report Corpus eta International Comparable Corpus.

https://www.hf.uio.no/ilos/english/people/aca/signeo/index.html

Bi norabidetako corpus paraleloak: erronkak eta aukerak

Hizkuntzalaritza kontrastiboaren ikerkuntzan corpus paraleloak bi norabidetan erabiltzeak planteatzen dituen erronka nagusietako batzuk aurkeztuko ditut hitzaldi honetan, eta nik neuk halako corpus paraleloak konpilatu eta ustiatzean izan dudan esperientziatik eginiko hausnarketak aipatuko ditut. Erronka horietaz haratago, noranzko biko corpus paraleloek duten potentziala deskribatuko dut, eta haien erabilera-aukera batzuk erakutsiko ditut. Hain zuzen ere, Stig Johansson-ek (Johansson & Hofland 1994) diseinatutako bi noranzkoko corpusaren onurak jaso dituzten zenbait azterketa kontrastiboren adibideak emango ditut. Batez ere nire ikerketetan oinarrituriko lanak erakutsiko ditut, hala nola bi hizkuntzatako baliabide edo eredu jakin batzuei buruzko hainbat azterketa lexiko- eta lexikogramatikal, eta n-gramei buruzko beste azterketa esperimental batzuk.