euskaraespañol

Hizkuntza-teknologiak weba euskararentzat ustiatzeko

Weba euskarazko corpus gisa baliatzeko tresnak garatu ditu UPV/EHUko ikertzaile-talde batek

Lehenengo argitaratze data: 2014/10/08

Irudia

Idatzizko hizkuntzaren erreferentziazko laginak dira corpusak, testuen eta hitzen bilduma erraldoiak. Eta askorentzat "corpus" hitza bera arrotza bada ere, corpusak hizkuntza-teknologien oinarrietan daude. Itzulpen automatikoko sistemak eta ahotsa ezagutzeko aplikazioak ez lirateke existituko corpusik gabe, ez eta gaur egungo hiztegi modernoak ere. UPV/EHUko ikertzaile-talde batek iturri erraldoi batera jo du euskarazko corpusak sortzeko: weba. Weba iturri gisa erabiltzeak bide ematen du corpus handiak eskuz baino errazago lortzeko, baina, horretarako, tresna egokiak garatu behar dira. Euskarak, orain, baditu.

Corpus-hizkuntzalaritzan, "more data is better data" esan ohi da; alegia, datu gehiago izatea datu hobeak izatea dela. Eta kopuruari dagokionez, Internetek, webak, ez du lehiakiderik. Ikerketa-lanari ekin ziotenean, euskarazko corpus handienak 25 milioi hitz zituen; gutxi. Izan ere, orain arteko corpusak eskuzko metodoen bidez sortutakoak dira. "Beste hizkuntza batzuek 1990eko hamarkadan gainditu zuten 100 milioi hitzen langa", dio Igor Leturia ikertzaileak. "Langa hori gainditzeko helburua jarri genuen, weba euskarazko corpusak sortzeko iturri egokia izan zitekeen aztertzen hasi ginenean", gaineratu du.

Langa aspaldi gainditu zuten hizkuntzek ez dituzte eskuzko metodoen bidez sortu hitz-multzo erraldoiak: "web corpus gisa" hurbilketa baliatuta eta tresna automatikoen bidez sortu dituzte. Izan ere, corpus tradizionalen mugarik handiena kostua da: eskulan handia eskatzen du formatu eta toki desberdinetan dauden testuak biltzeak eta egokitzeak, horietatik hizkuntzaren erreferentziazko hitz-bildumak erauzteko. Weba, berriz, handia da, edozein hizkuntza, domeinu eta generotako testuak ditu, erraz maneiatzeko moduko formatu estandar batean, HTML formatuan. Etengabe eguneratzen da, gainera. "Metodo automatikoak erabiliz corpusak webetik erauzteko, askoz azkarrago eta merkeago lortzen dira corpus askotariko, eguneratu eta handiak", azpimarratu du Leturiak.

UPV/EHUko Informatika Fakultateko Ixa ikerketa-taldeak gidatuta Elhuyarren Hizkuntza eta Teknologia unitatean garatu du Leturiak ikerketa-lan hori, helburu bikoitz honekin: batetik, frogatzea "weba corpus gisa" metodologia baliagarria dela euskarazko hitz-bilduma handiak, askotarikoak eta kalitate onekoak lortzeko, eta, bestetik, hori egiteko tresnak garatzea. "Ingelesez oso erraza da corpus handiak webetik ateratzea -zehaztu du Leturiak-. Baina euskararen presentzia txikiagoa da webean, eta, ez genekien tamaina jakin batzuk edo corpus-mota batzuk lortzea posible izango zen". Leturia beste hizkuntzetan aplikatzen diren metodo automatikoetatik abiatu da bereak garatzeko, kontuan izanda euskarak dituen ezaugarriak, eta euskararen ezaugarri horietara egokitutako konponbideak bilatu ditu.

Lau arlo landu ditu. Lehenengoan, frogatu du posible dela weba zuzenean kontsultatzea, euskarazko corpus bat balitz bezala. Horretarako, bi tresna garatu ditu. Bat, deklinazioaren "arazoa" gainditzeko: "Bilatu nahi den hitzaren deklinazioak eta aditz-jokoak sortzen ditu tresnak, eta horiek bidaltzen zaizkio bilatzaileari, OR agindu baten barruan, euskarazko benetako emaitzak lortzeko", azaldu du. Beste tresna iragazki bat da, euskarazko testuak bakarrik itzul ditzan sistemak. Lan horren emaitza da CorpEus bilaketa-tresna.

Bigarren arloan, erauzketa automatikoko "crawling" metodoari egindako egokitzapenen bidez, euskarazko corpus orokor bat sortu du, webetik, baina ez 100 milioi hitzekoa, baizik eta 210 milioikoa. Web-Corpusen Atarian dago kontsultagarri. Webetik erauzitako corpus hori tradizionalak baino handiagoa izaten da, eta informazio gehiago ematen du hitzei buruz. Leturiaren esanean, "corpus tradizionaletan dauden hitzen % 95etik gora gurean ere badaude, eta, gainera, haiek jasotzen ez dituzten beste asko ere bai". Zehazki, corpus tradizionalei egiten dion hitz berrien ekarpena % 85ekoa da.

Corpus orokorrak sortzeko ez ezik, jakintza-arlo zehatz batzuetarakoak egiteko ere baliagarria den weba ikertu du Leturiak, bai euskarako testu-bilduma hutsak lortzeko, bai testu-bilduma elebidunak eratzeko. Bi kasuetan, webetik erauzitako domeinu-corpusak eskuz sortutakoekin parekagarriak izan dira. Informatikaren, partikulen fisikaren eta turismoaren arloko corpusekin egin du lan, besteak beste.

"Gurea baino hiztun gehiagoko hizkuntza batzuk baino geroago eta baliabide gutxiagorekin abiatu ginen -gogoratu du Leturiak-; baina beste toki batetik ere begiratu ahal zaio gaiari: hiztun askoko hizkuntza batzuk (ingelesa, adibidez) morfologikoki sinpleagoak dira automatikoki tratatzeko, testu-masa handia dute, eta estatistika aplikatze hutsarekin oso emaitza onak lortzen dituzte. Euskarak, berriz, testu-masa txikiagoa duenez eta konplexuagoa denez tratamendu automatikorako, arazo zailagoen aurrean jarri gaitu, eta aukera eman digu hizkuntza "handiek" ez dituzten tresna batzuk garatzeko. Alde horretatik, hizkuntzen teknologiaren arloari ekarpen originalak eta berritzaileak egiteko aukera izan dugu". Leturiaren ustez, euskararentzat ez ezik, euskararen antzeko beharrak eta ezaugarriak dituzten beste hizkuntza batzuentzat ere erabilgarriak dira garatutako tresnok.

Informazio osagarria
Informatikan doktorea da Igor Leturia Azkarate , eta hizkuntza-teknologien ikertzailea, gaur egun, Elhuyarren. UPV/EHUko Informatika Fakultateko Ixa ikerketa-taldeko Xabier Arregi eta Kepa Sarasola ikertzaileek gidatuta egin du "Weba euskarazko corpus gisa" doktore-tesia.