Erabiltzaile Tresnak


hizt:6

Corpusak eta hiztegiak

Hiztegiak eta corpusak zer diren azalduko da artikulu honetan; baita horiek eraikitzeko testu masak nola kudeatzen diren ere. Horrez gain, euskarazko hiztegi eta corpus nagusietako batzuk aipatuko ditugu.

Hiztegiak egiteko...

Hiztegiak egiteko sistemak asko aldatu dira azken urteotan, informatikak bere erraztasun guztiak mahai gainean jarri zituenetik. Hiztegiek informazio handia behar dute, hizkuntzaren erabileraren inguruko informazioa: hitzak, bai, sarrera egokiak aukeratzeko, baina hitzekin bakarrik ez da aski, hitzak beren testuinguruetan ikusi behar dira, ongi zehazteko zer adierazi nahi duen hitz bakoitzak, nola interpretatu behar den sarrera bakoitza. Hori testu bildumekin konpontzen da neurri batean, eta testu bilduma horiek dira corpusak. Hizkuntza corpusak, azken batean, testu masak dira. Testu bildumak handiak badira, egile desberdinek hartu EUSKAL HIZTEGIAbadute parte, egokitasunaren estandarrak betetzen badituzte… horrek ematen du informazioa hiztegia egiten hasteko. Noski, hizkuntza biziaren gainean egindako grabazioak eta oharrak ere ezinbestekoak dira, baina testuek sistematasun handiagoa eskaintzen dute, besteak beste sarrerak aukeratzeko informazio gehiago ematen baitute. Ez da aski, hiztegi bat egiteko orduan, “nire herrian hola esaten da”, edo “nire amonari hau entzun nion behin”, besteak beste, herri asko eta amona asko baitaude Euskal Herrian. Testuak hartzen ditugunean, bata bestearen ondoan jartzen ditugunean, eta testuetako informazioa eskuratzeko aplikazio informatikoak erabiltzen ditugunean, hizkuntza corpusak sortzen ditugu.

...hizkuntza corpusak ezinbestekoak dira

Lanabes informatikoak garatu direnetik askoz ere gehiago erabiltzen dira hizkuntza corpusak. Corpusak hitz multzoak dira, testuetatik erauzi eta euskarri elektronikoan bildutako hitz multzoak, beti bere testuinguruarekin. Corpusek egiazko hizkuntza adibideak biltzen dituzte, eta ezinbesteko bihurtu dira hizkuntzaren zinezko erabilera aztertzeko. Hitzen testuinguruak ongi bereiztea, informazio hori izatea, ezinbestekoa da hizkuntzalaritzan konklusioak atera nahi baldin badira. Era askotakoak dira corpusak eta helburu desberdinekin egiten dira. Ahozko lekukotasunak bil ditzakete, behin transkribaturik, edo testu idatzietan oinarri daitezke. Batzuek estatistikak ateratzeko balio dute: esaterako, jakin nahi bada zein den hizkuntza batean gehien errepikatzen den hitza edo egitura. Horregatik, hizkuntza horri buruzko, hizkuntza idatziari buruzko, informazioa nahi baldin bada, corpusak ezinbestekoak dira. Corpusek ematen dute informazio hori. Corpusak izan daitezke espezializatuak, ezagutza arlo batean nolako terminologia erabiltzen den jakiteko, adibidez. Edo ereduzko corpusak: espresuki aukeratutako ereduzko testuetan oinarritzen dira. Mota askotakoak izan daitezke.

Orotariko Euskal Hiztegia (OEH) egiteko, adibidez, tradizioan idatzitako testuak bildu ziren, eta horiekin guztiekin testu masa bat egin zen. Hortik hartu zen informazioa, ikusteko ondoren idazle bakoitzak nola erabiltzen zituen hitzak, nolako esanahiarekin, nolako testuinguruan. Horrek ematen zuen ezinbestekoa zen informazioa ondoren sarrera behar bezala egokitzeko, adibide zuzenak aukeratzeko, eta abar. Testu masa hori, gutxi gorabehera, 5 milioi hitzekoa zen: ez du esan nahi, noski, euskarak 5 milioi hitz desberdin dituela, hitz horietako asko eta asko errepikatuak direlako. Baina, goiko adibideetara itzulirik, hitzak errepikatzen direnean bakarrik konturatuko gara idazle batek “sartzen utzi” esaten duela eta beste batek “sartzera utzi”. Idazle bat bakarrik aukeratuko bagenu ez genuke informazio hori izango. Idazle asko aukeratuz ikus daiteke bi aldaerak daudela, eta ikus daiteke zein erabiltzen den gehiago edo gutxiago eta erabilera hori euskalki kontua den, adibidez. Horregatik, testu masa handiak izatea ezinbestekoa da, gero hortik informazio egokia ateratzeko.

kakotxa
kakotxa
Corpusak testu masak dira. Era askotakoak izan daitezke. Hemen erabiltzen ditugunak espresuki aukeratuak dira: txukun idatziak diren testuak aukeratu dira, eta euskara modernoaren lekukoak dira. Testu masa horiek informazio handia ematen digute zerbait idazteko orduan, hitzak erabiltzeko joerak erakusten baitituzte

Testuak nola aukeratzen diren

Testu estatistikoak aukeratzeko (hizkuntza osoaren ispilua nahi denean) orduan irizpide batzuk aplikatzen dira hizkuntzetan: ehuneko honenbeste testu literaturakoak, honenbeste egunkarietatik, honenbeste eskuliburuetatik, honenbeste zientzietako liburuetatik, eta abar. Baina aukera horiek ez dira egiten, arruntean, denek onartu irizpide objektiboen arabera. Munduko hizkuntzetan dauden corpusak elkarren artean erkatzen badira, berehala ikusten da irizpideak desberdinak direla: adierazten da, bai, nola aukeratu diren testuak, zer eremutakoak diren, eta ehunekoak ere esaten dira, baina ez da argitzen zergatik egin diren aukera horiek eta ez beste batzuk. Arruntean, zentzu komuna erabiltzen da, alegia, hizkuntzaren testu mota desberdinak aukeratzen dira, hizkuntzaren erabilera guztiak, ahal dela, izan daitezen, modu batera edo bestera, ongi ordezkatuak. Beste batzuetan corpusak irizpide mugatu eta zehatzago batzuen arabera aukeratzen dira: esaterako, batzuetan, zientzia eta teknologiako terminologia aztertu nahi baldin badugu, adibidez, eta hori bakarrik aztertu nahi badugu, testu mugatuagoak behar ditugu, eleberri batek ez baitigu emango, segur aski, arlo horretako informaziorik: hezkuntzan, unibertsitatean, zientzia eta teknika lanetan… erabiltzen diren testuak bakarrik aukeratuko ditugu. Beste batzuetan, hizkuntzaren maila izaten da, oroz gain, nabarmendu nahi dena: kasu horretan, testuak banan-banan aukeratzen dira, hautuak eginez eta hizkuntza horretan txukun idatzitako testuak bakarrik kontuan hartuz (idazle ezagunek idatzitakoak, esaterako). Behin testu horiek aukeratuta, programa informatiko batek bereizten ditu testu horiek esaldika, edo paragrafoka, eta abar, analisiak posible egin ahal izateko.

EHUko Euskara Institutuaren corpusak

AtxagaLERTXUNDIEHUko Euskara Institutuak baditu zenbait corpus kanpotik kontsultatzeko moduan denentzat irekiak utzi dituenak. Hitzak esaldiaren barnean kontsulta daitezke hor, edo testuinguru zabalagoan zenbait kasutan. Zertarako balio dute corpus horiek? Adibide batekin ikusiko dugu. Norbaitek zalantza izan dezake egitura batean, eta nahi luke jakin zer den erabiliago, egokiago, edo zuzenago, zein den eredugarriago azken batean. Jo dezagun zalantzak dituela “joan behar du” eta “joan behar da” esaldien artean (bide batez, biak eman ditu egokitzat Euskaltzaindiak). Aski du horretarako “behar” hitza bilatzea gure corpusean, EPG izeneko corpusean (bilaketa zailagoak ere egin daitezke: “behar du” eta “behar da” bila ditzakeELORRIAGA, edo “joan behar du” eta “joan behar da”, beraz hitz bat baino gehiago erabil daiteke bilaketa egiteko orduan). Bilaketa egiten duenean ikusiko du, batetik, zenbat aldiz erabiltzen den “joan behar du” (165), KIRMEN URIBEeta zenbat “joan behar da” (162), eta ikusiko du nork eta non erabiltzen duen (Ipar eta Hegoaldeko erabileraren kontua den, kasuko). Edo nahi dugu jakin zer den erabiliago, eta nork erabiltzen duen: “mendian zehar” edo “menditik zehar”, “utzi du sartzen” edo “utzi du sartzera”, eta abar. Holako informazio ematen digute corpusek. Sarritan entzun izan ditugun “hau asko erabiltzen da halako tokian” bezalako argumentuak oso ahulduak geratzen dira, orain datuekin eskuetan esan baitaite “hau honenbeste aldiz erabiltzen da halako tokian”.

Euskara Institutuaren corpus hauek testu aukeratuetan oinarritzen dira, testu txukunak direlakoan, espresuki aukeratutako testuetan, bai prentsan eta bai liburuetan. Corpus gehienak XXI. mendekoak dira, eta horiek aski corpus aberatsak eta handiak dira. Badira corpus historikoak ere (EKC, adibidez).

MEABECANOOÑEDERRAZALDUATXILLARDEGIBORDAIRASTORZALETEA.ITURBEIGERABIDEF.JUARISTIE.ELIZONDOJ.OSOROEPALZAIRIGOIENGARATEP.PERURENASAIZARBITORIAAINTZIARTLANDARTALBERDI, P.AMURIZAKINTANAXARRITONJUAN MARI LEKUONAAURELIA ARKOTXAJON ARRETXELAURA MINTEGIARANTXA URRETABIZKAIA

Egungo Testuen Corpusa (ETC)

Egungo Testuen Corpusa (ETC). Corpus honek 205 milioi hitz inguru ditu, denak XXI. mendekoak eta prosan idatzi diren testu aukeratuetan oinarritzen da. OEH egiteko erabili zen corpusa baino berrogei aldiz handiagoa da. Hitzak bere testuinguruan biltzen ditu; hitzen erabileraren eboluzioa urtez urte ikusten da; non erabiltzen diren gehiago, jatorrizko testuetan edo itzulpenetan; lemen sare semantikoaren berri ematen du, eta kate bateko hitzen edo lemen segidak nahi den bezala kontsulta daitezke. Hitzen erabilera elkarren artean ere erka daiteke, eta informazio guztia grafikoetan ematen da.

Ereduzko Prosa Gaur (EPG)

Ereduzko Prosa Gaur (EPG). Corpus honek 25 milioi hitz inguru ditu, eta 2000-2006 urteen arteko testuak biltzen ditu. Ikusten denez, batetik, OEH egiteko erabili zena baino ia bost aldiz handiagoa da. Bestetik, testuak gaur egungoak dira, gaur idazle hoberenek erabiltzen duten euskara islatzen du. Eta corpus horretan berean oinarritzen gara Egungo Euskararen Hiztegia (EEH) ere egiteko. Hau da gaur egun benetan erabiltzen den euskara idatzia. Hau da idazten eta irakurtzen dena. Zergatik holako testu masa, eta ez handiagoa edo txikiagoa? Gure ustez, bilatu nahi dugun informazio hau emateko, hemen eman nahi dugun informazioa emateko, alegia, aski da 25 milioi hitz: zerrendan testu gehiago sartuz gero, hitz kopuru hori handituz gero, informazio berri gutxi ematen da, baina informazioan “zarata” sortzen da, informazio berbera eskuratzeko askoz ere adibide gehiago aztertu behar baita. Hitz batean esateko: helburu hauetarako, corpus handiagoek lan gehiago eskatzen dute informazio gehiago eman gabe. Besterik da, noski, helburuak bestelakoak baldin badira. Itzulpenak egiteko lanabesak garatu nahi badira, esaterako, corpus handiagoak beharko genituzke.

Ereduzko Prosa Dinamikoa (EPD)

Ereduzko Prosa Dinamikoa (EPD). Corpus hau aurrekoa bezalakoa da, baina bi berezitasun ditu. Batetik, txikiagoa da, 15 milioi hitz ditu. Eta bestetik, urtero gaurkotzen da urte zaharrena kenduz, eta beste bat gehiago erantsiz: 2004-2008 urte batean, hurrengoan 2005-2009, hurrengoan 2006-2010… Hizkuntzak aldatzen dira, eta corpus honek hori bildu nahi du, aldatze horren berri eman nahi du. Beraz, corpus hau aurrekoaren osagarritzat har daiteke. Hango liburu asko errepikatuko dira hemen, gaurkotze horrek 2006. urtea atzean uzten duen arte (urte hartakoak baitira EPG corpuseko azken liburuak eta prentsa artikuluak. Ondoko urteetan (2012tik aurrera alegia) ikusi ahalko den material guztia berria da. Honek hizkuntzaren aldaketaren berri ematen du, serie horiek guztiak Euskara Institutuaren artxiboetan gorde baitira.

Euskal Klasikoen Corpusa (EKC)

Corpus honek (EKC) euskal klasikotzat jotzen diren egileen testuak biltzen ditu. Konparazio puntu bat jartzeko, OEH egiteko ere klasikoen testuak erabili ziren. Baina hiztegi erraldoi eta miresgarri hori funtsatzen duten testuak ez ditu Euskaltzaindiak denen eskura jarri, ez ditu modu aske batean kontsulta egiteko gisan utzi. Corpus hura 303 liburuk osatzen zuten, eta 5,8 M hitz ditu. Esan daiteke Euskara Institutuak modu askean eskaintzen duen beste corpus honen azpian dauden testuek OEH-ren corpus hura bera osatzen dutela, baina biziki handitua: corpus honek 496 liburu ditu, eta 11,9 M hitz. Hau da euskal testu klasikoen artean eskura dagoen corpusik handiena. Informazioa ere aski aberatsa da: OEHn hitzez hitz joan behar da, esaterako, baina anitzetan beste informazio mota bat behar izaten da. Adibidez, jo dezagun jakin nahi dugula ea gure klasikoek erabili duten gaur egun horrenbeste ageri den “beste behin” hitz segida, edo hori zerbait berria den. Holako galderei erantzuteko aski da bi hitz horiek segidan idaztea, bata bestearen ondoren. Informazio hori corpus honek ematen du, berehala, baina OEH-n bilatzea aise zailagoa da, eta anitzetan ez dator.

ZIO corpusa

ZIO corpusa (ZIO). Corpus honek biltzen ditu EHUko Euskara Zerbitzuak zientziaren dibulgazioaren inguruan argitaratzen dituen ZIO bildumako liburuak. Alde horretatik, zientzia terminologiaren ingurukoa da corpus hau.

ZIO bildumak egungo ezagutza zientifikoa plazaratzen duten askotariko saiakera eder eta irakurgarriak eskaintzen ditu euskaraturik. Izan ere, batera isurtzen dira zientziaren eta literaturaren urak, denaren eta garenaren zioak bilatzeko saio atergabea baita haien jarduna. Haatik, ubide gero eta bereziagoak eraiki dizkiegu zientziei eta letrei, eta aurkez aurke jarri ere bai inoiz biak. Ezagutzaren ur ederrak euskaraz gozatzeko aukera ematen dio ZIO bildumak irakurle egarrituari. Goi-mailako dibulgazioko liburuek osatzen dute ZIO. Atseginak dira irakurtzeko; arrakasta eta miresmena berenganatu dute beste hizkuntzetako irakurleen artean, eta aditua ez den baina egungo ezagutza zientifikoaren berri jakin nahi duen irakurleari zuzenduta daude.

Zuzenbide corpusa

Zuzenbide Corpusa Euskara Institutuaren ekimena da, EHUren Zuzenbide Fakultateko Euskara Juridikoaren Mintegiarekin lankidetzan garatua. Corpus honen helburua da euskara juridikoaren eragile nagusiek sortutako testuak eskuragarri jartzea, euskarazko prosa juridikoa finkatzen laguntzeko. Horretarako, 2000. urteaz geroztik euskaraz emandako lege-testu, eskuliburu eta Zientzia Juridikoen alorreko artikulu akademiko nagusiak kontsulta daitezke corpus honetan. Hainbeste eragileren lana biltzen da hemen: EHUren Zuzenbide Fakultatea, Eusko Ikaskuntza, Eusko Jaurlaritzaren Justizia Saila, IVAPen Itzulpen Zerbitzu Ofiziala (IZO), Deustuko Unibertsitatea, Eusko Legebiltzarra, Nafarroako Foru Parlamentua, UZEI, Foru Aldundiak, eta abar. Lan horren emaitzaren erakusgarri dira, hain zuzen ere, Zuzenbide Corpusak biltzen dituen lege-testuak eta testu akademikoak. &,6 milioi hitzeko corpusa da.

GOENKALE corpusa

ETB1en emititzen den telesaila da "Goenkale", 1994an abiatu zena. 2010eko ekainean eman zuen 3000. atala. Horietatik eskuratu ahal izan diren testuekin osatuta dago corpus hau. Denetara 11 milioi hitz biltzen dira hemen. Nolako informazio mota gaineratzen du material honek? Zergatik sartu da hemen? Euskaraz gero eta material gehiago ditugu eskura, baina material horien artean hutsune nabarmen bat dago: elkarrizketena. Hutsune horren zergatia erraz atzematen da: zaila da oso egiazko elkarrizketak ongi grabatzea, eta transkribaketa zuzenak ematea. Egia da badirela elkarrizketak eleberri eta antzerki lanetan. Baina oso material gutxi dago, inon baldin bada, ETBko “Goenkale” sailak eskaintzen digun adinakoa, kalitatez nola kopuruz. Eta, gainera, elkarrizketa hauek biziak dira, naturalak hizkuntza aldetik, eta teleikusleek ere hala diote. Aukera paregabea dugu hemen ikusteko nolako testuingurua duten euskal hitzek beste erregistro honetan, elkarrizketarenean alegia. 11 milioi hitz horietatik 7,7 milioi hitz elkarrizketa zuzenak dira, 805.796 hizketaldiri dagozkienak.

Pentsamenduaren Klasikoak corpusa

BBV Fundazioak (gero BBVA), Bizkaiko, Gipuzkoako eta Arabako Kutxek, Euskal Herriko Unibertsitateak eta Deustuko Unibertsitateak osatutako KLASIKOAK izeneko bilduman argitara emandako liburuak biltzen dira hemen: liburu horietako asko pdf-n edo worden doan eskura daitezke. Kontuan izan behar da, dena den, liburu hauetako batzuk 2001 baino lehenago argitaratu zirela eta lexikoaren batasuna ez zegoela gaur bezain ongi finkatua, Euskaltzaindiaren Hiztegi Batua argitara eman gabe zegoelako artean. Dena den, irakurleak badu aukera corpus honetan bi liburu multzo bereizteko, hala nahi izanez gero: 2001 baino lehenago argitaratuak, eta gerokoak.

Hauexek dira corpus honen ezaugarri nagusiak:

  • Liburuen argitalpen data 1992 eta 2009 bitartekoa da.
  • 130 liburuk osatzen dute corpusa.
  • Denera 10,7 milioi testu-hitz biltzen dira corpus honetan.

Badira beste corpus batzuk ere kontsulta daitezkeenak euskaraz, hemen eta hemen.

— Egilea: Pello Salaburu

lanaren aipamena nola egin...

Pello Salaburu, "Corpusak eta hiztegiak", Sareko Euskal Gramatika (SEG), www.ehu.eus/seg
ISBN: 978-84-693-9891-3