Breadcrumb

Agenda

Inoiz egin den euskararen corpusik handiena biltzen du Egungo Testuen Corpusak

Lehenengo argitaratze data: 2013/03/11

Irudia

Informazioa oso modu intuitiboan ematen du XXI. mendeko prosazko testuez bakarrik osatutako on-lineko bilduma horrek.

UPV/EHUko Euskara Institutuak garatu berri duen Egungo Testuen Corpusa aurkeztu da gaur, martxoak 11, Bizkaia Aretoan. Ekitaldian izan dira: Iñigo Urkullu lehendakaria, Iñaki Goirizelaia, UPV/EHUko errektorea, Pello Salaburu, UPV/EHUko Euskara Institutuko zuzendaria, Ibon Sarasola, UPV/EHUko irakaslea eta Euskara Institutuko kidea, eta Pablo Mongelos, Lagun Aroko zuzendaria.

Inoiz egin den euskararen corpusik handiena da Egungo Testuen Corpusa (ETC). Guztira, 205 milioi hitz biltzen ditu on-lineko corpus horrek: Euskara Institutuak garatutako aurreko corpus bat, Ereduzko Prosa Gaur, 25 milioi hitzekoa da; Euskaltzaindiaren Orotariko Euskal Hiztegia -euskararen tradizio idatzia aztertzeko egin den lanik sakonena- osatzeko erabili zen corpusak 5 milioi hitz zituen. Beraz, hau 40 aldiz handiagoa da. Are gehiago, dituen bereizgarriak kontuan izanik, ETC munduko handienetakoa da: badaude askoz ere handiagoak diren corpusak, baina hitz bakoitzaren inguruan ematen duten informazioa oinarrizkoago eta erabilgaitzagoa da. "Gure interfazea oso sinplea, argia eta intuitiboa da, erabilerraza", adierazi du Euskara Institutuko zuzendari Pello Salaburuk.

Aukeratutako testu guztiak XXI. mendekoak dira, hori da funtsezko beste ezaugarri bat. "Euskara asko egonkortu da 2000tik aurrera, urte horretan atera baitzuen Euskaltzaindiak Hiztegi batua, eta horrek eragin handia izan du", azaldu du Euskara Institutuko zuzendariak. Hegoaldekoak eta Iparraldekoak dira testuak, prosazkoak (liburuak, prentsa eta Wikipediako testuak) eta kalitateagatik aukeratuak. Badira jatorriz euskaraz idatzitako testuak eta testu itzuliak ere. Iturriak eta urteak ere kontuan hartu izan dira, pisu antzekoa izan dezaten.

ETCn bilaketak egitea oso erraza da, eta emaitzak oso aberatsak: hitz bakoitzaren informazioa eskaintzen du, lema (etxe) eta lemaren aldaera guztiak (etxea, etxeak, etxera, etxetik...) bereizteko aukera emanez. Bilaketa egindakoan, automatikoki ageri da "tarta" bat, lema eta aldaerek osatua, ehunekoetan, nola banatzen diren aldaerak erakusten duena. Aldaera bakoitzeko adibide guztiak ere kontsulta daitezke: hitza bere esaldian ageri da, eta nork erabiltzen duen, non, noiz... ere esaten da. Lemak eta hitzak bereiz daitezke, eta hitz bat baino gehiago ere aldi berean. Hasiera zehatz bateko hitz guztiak kontsulta daitezke, hitzen erabilera elkarren artean konparatu, hitz multzoak (ondoan egon nahiz beste hitz batzuk izan tartean) kontsultatu, eta abar.

Aukeratutako hitzen inguruan, hainbat informazio eta kontsultatzeko aukera ematen du ETCk. Hortaz, hitzaren erabileraren eboluzioa ikusten da grafiko batean, urtez urte gehiago edo gutxiago erabili den (horrek bidea irekitzen du azterketak egiteko zergatik gertatzen den hori) eta adibideak urteka ikus daitezke. Jatorria kontuan harturik ere egin daiteke kontsulta: zuzena, itzulpena edo neutroa (batzuetan zail gertatzen da jakitea testu hori oinarritik sortu den, edo itzulpena den, Wikipediatik hartutako testuetan, adibidez). Eta informazioa ematen digu non erabiltzen den gehien hitz hori: zuzenean sortua denean edo itzulpenetan, adibidez. Gauza bera iturriari dagokionez: non erabiltzen den gehiago aukeratu den hitza ikus daiteke: prentsan (eta prentsan non), literaturan, zientzian, entziklopedietan, telebistan...?

Hitzaren sare semantikoa ere ematen da, hau da, hitz horrek dituen propietateak erakusten dituzten beste hitz batzuek osatutako segida. Adibidez, apaiz hitzaren sare semantikoan abade, apezpiku, meza, eliza... ageri dira. "Hau ezinbestekoa da hiztegi egokiak egiteko orduan eta informazio mota honetaz baliaturik egiten dira hiztegiak gaur egun", aipatu du Salaburuk. Konbinazioak ere egin daitezke beste lema batzuekin, aurretik eta atzetik zer hitz edo zer hitz kategoria ageri den ikusteko.

"Hori guztia modu sinple eta intuitiboan egiten da. Munduan erabiltzen diren sistemak aztertu ditugu, eta uste dut Euskara Institutuko teknikari Josu Landak egin duen lanarekin guztiz hobetu dugula gurearekin", esan du Pello Salaburuk. Lan hau aurrera eramateko UPV/EHUko Euskara Institutuak Lagun Aro Fundazioaren diru-laguntza jaso du.