Erabiltzaile Tresnak


hizk:1:2

Lexikoa

Lexikoa definitzea ez da erraza. Lexikoa askotan hiztegiaren baliokidetzat jo izan da Hizkuntza Orokorrean. Eta zenbaitek hiztegia hizkuntza bakoitzari dagokion hitz-zerrendatzat jotzen du besterik gabe, hitzok arbitrarioki esanahi bat lotuta dutela. Egun, ordea, lexikoa hori baino zerbait gehiago dela onartzen da. Berez, lexikoa da hitz batek (den kategoriakoa dela) edozein testuingurutarako (edo testuinguru guztietarako) berezkoa duen informazioa. Gakoa da zein den informazio hori. Horregatik, lexikoak ez du hitzaren (eta gehienetan esanahiaren) informazio hutsa bakarrik, baizik eta mota guztietako ezagutza barne har dezake: morfosintaktikoa, semantikoa…

Hizkuntza automatikoki aztertzeko, lexikoak garrantzi handia du, bertako informazioa baita ondorengo urratsetarako abiapuntua. Geroz eta lexiko sendoagoa eduki orduan eta informazio aberatsagoa hurrengo urratsetan baliatzeko eta konbinatzeko. Horregatik, bere azterketa geroz eta indar handiagoa hartzen ari da bai lexikografia konputazionalean bai lexikografian oro har.

Hala, lexikoi konputazional sendoko sarrerek informazio morfologikoa (kategoria/azpikategoria), sintaktikoa (adib. azpikategorizazioa) eta semantikoa (adib. hautapen-murriztapenak) izan ohi dute; gainera, betiere LNPko sistema batean integratzeko moduan antolaturik. Nolanahi ere, helburu jakinetara zuzendutako lexikoiak diseina daitezke, eta ondorioz informazioa ere mota desberdinekoa izan daiteke. Esaterako, EDBL (Euskararen datu-base lexikala) (Aldezabal et al., 2001) hizkuntza morfosintaktikoki aztertzeko egindako lexikoia da, eta beraz, sarrerek kategoriari, morfosintaxiari eta morfotaktikari buruzko informazioa dute (Ikus Morfologia konputazionala). Lexikoietan informazio mota asko bilduta izateak gero eta errepresentazio-eredu zailagoak eskatzen ditu, eta aldi berean, informazio hori prozesu automatiko edo erdiautomatikoez eskuratzeko aukerak aztertzea, ezagutza lexikalaren eskurapenak lan eskerga eta kostu handikoa baitakar eskuz eginez gero.

Bestalde, atal honetan aztertuko ditugu corpusak ere. Corpusgintza garrantzia handia hartzen ari da azken urteotan, goian aipatu dugun moduko informazio ugari bertatik erauzi ahal baita hizkuntza teknologien laguntzaz. Modu honetan, lexikoiak osatzeko iturri guztiz aberatsak dira.

Lexikoi motak

Saia gaitezen lexikoien mundua zedarritzen. Lantzen den informazioaren arabera, lexikoi mota ugari zerrenda ditzakegu: euskarri elektronikoko hiztegiak (MRDak), kontzeptu-sareak, taxonomiak, terminologia-bankuak, datu-base lexikalak, ezagutza-base lexikalak, ontologiak, LNPrako lexikoiak…

Horietako bakoitza zer den zehatz definitzerik ez badago ere, nolabaiteko ezaugarri orokorrak finka daitezke behinik behin. Hiru sail nagusitan banatu ditugu:

  • Hiztegiak
  • Hiztegi ezagutza-baseak (HEB) eta Ezagutza-base lexikalak (EBL)
  • Ontologiak

Sailkapen honetako ordena informazioaren elaborazio mailaren arabera egin dugu. Hiztegietan, lexikografoek kategoria, erabilera-kodeak, definizioa, adibideak, etab. biltzen dituzte. Hitzak ez ezik, hitzen adierak ere azaltzen zaizkigu. HEBetan hiztegietan dagoen informazio inplizitua esplizitu bihurtu eta hitzei buruzko informazio lexikala biltzen da. EBLetan LNPrako sistema batek ulermen eta sormena egiteko hitzei buruz behar duen informazio guztia biltzen dute. Ontologiak munduari buruzko kontzeptualizazioak dira, munduari edo alor konkretu bati buruz jakin beharrekoak (gauza, gertakizun, arrazoinamendu, eta abar, sen ona azken finean) biltzen saiatzen direnak.

Hiztegiak

Hiztegiak, konputagailuz erabiltzeko moduko baliabideak dira. Landugabeak izan ohi dira, testu-prozesadore batez landuak gehienetan. Informazio gordina eduki ohi dute, hori bai, euskarri informatikoan.

Lengoaia Naturalaren Prozesamenduan, 1980ko hamarkadarainoko sistemetan ahaleginaren gehiengoa sintaxi-egituretara eta sintaxitik semantikarako zubietara mugatzen zen.

Lexikoa arazorik gabe beteko litzatekeen hitz-zerrenda soil bat besterik izango ez zela uste zen. Garai horretan konturatu ziren LNPrako sistemen hedakuntzarako arazo nagusiena lexikoa urriegia izatea zela, eta lexikoa edukiz betetzea uste baino lan neketsuagoa zela. Garai berdinean, formalismo sintaktiko berri batzuk egitura sintaktikoen pisua lexikoira pasatzen hasi ziren, lexikoaren egitura konplexuago bihurtuz.

Lexiko zabal eta konplexuen eraikuntza eskuz egitea gehiegizko lana izango zela eta, hiztegietan zegoen informazioa ustiatzen ahalegindu ziren. Hiztegi elebakarretan hitzen kategoria, azpikategoria, definizioa, erabilera-adibideak, etab. aurki daitezke. Gainera hitzen esanahiak antolatuta daude, adieren bidez. Berrikiago, hiztegi elebidunetan dagoen informazioa ere ustiatzen hasi da, bai hizkuntza batetik besterako ordainak, baita hizkuntza bateko kolokazio edo eremu semantikoa bezalako informazioa ere.

Hiztegi elebakarren artean, bat izan da tratatua bereziki, Longman Dictionary of Contemporary English deritzona (LDOCE, Procter, 1978). Bertako definizioak hiztegi mugatu bat erabiliaz egin dira, ingelesa ikasten ari direnentzat pentsatua. Bestalde, aditzen azpikategorizazioari buruzko informazioa, izenen kode pragmatikoak, arlo semantikoari buruzko kode semantikoak, eta abar jasotzen ditu.

Lengoaia naturalaren prozesamenduan aipatzen diren beste hiru hiztegi dira The Webster’s Seventh New Collegiate Dictionary (Gove, 1969), Oxford Advanced Learner’s Dictionary of Current English (OALDCE, Hornby, 1974) eta Collins COBUILD English Language Dictionary (CED, Sinclair, 1987).

Ingelesa ez diren hizkuntzetan hiztegi gutxi tratatu izan dira. Gaztelaniako, adibidez, Diccionario General Ilustrado de la Lengua Española (DGILE, Alvar, 1987) eta Diccionario de la Real Academia Española (DREA), Corpus de Referencia del Español Actual korpusean (CREA) oinarritu dira formatu elektronikora pasatu diren batzuk. Frantseserako Le Plus Petit Larousse (LPPL, Larousse, 1980) dago. Euskararen kasuan, Euskal Hiztegia (Sarasola, 1997) erabili izan da LNPrako, besteak beste.

Hiztegi hauen erabilera nagusiak, bertatik informazio sintaktikoa erauztea (adibidez, ALVEYko lexikoa horrela eraiki zuten, Boguraev & Briscoe, 1987) eta haiekin HEB edo EBL bat eraikitzea litzateke, hurrengo atalean ikusiko dugun bezala.

Beste hiztegi mota bat thesaurusak dira, sarrerak eduki semantikoaren arabera antolatuta dauzkatenak, aurretik emandako sailkapen bati jarraituz. Lengoaia naturalaren prozesamenduan Roget’s Thesaurus (Kirkpatrick, 1987) dezente erabili izan da.

Hiztegi elebidunen artean Collins argitaletxeak ingeles-gaztelania, ingeles-frantses, ingeles-italiera, eta abar eskuragarri dauzka formatu elektronikoan. Gaztelania eta ingelesaren artean ere bada Diccionario Vox/Harrap’s Esencial Español-Inglés (Biblograf, 1992).

Hiztegi moten artean ditugu Terminologia-bankuak ere. Hauek termino zientifikoen eta teknikoen gordailuak dira. Terminoen esanahiarekin batera eleaniztasuna lantzen da bereziki. Horren adibide da UZEIk garatutako Euskalterm terminologia-bankua .

Hiztegi ezagutza-baseak (HEB) eta Ezagutza-base lexikalak (EBL)

Ezagutza-base lexikalak (EBL), ezagutzari buruzko informazioa gordetzen duten gordailu egituratuak dira. Ezagutza hau hiztegietatik erauzitakoa denean, hiztegi ezagutza-base (HEB) termino zehatzagoa erabili ohi da. Ezagutza-base edo hiztegi ezagutza-base hauetan, MRDetan ez bezala, entitateak eta beraien arteko erlazioak agerikoak dira, eta normalean semantika lexikala da errepresentatzen dena. Arrazonatzeko eta inferitzeko gaitasuna ere lantzen da.

Ezagutza mota gehienbat gramatikala (kategoria, azpikategoria, morfotaktika…) denean, datu-base lexikal (DBL) terminoa erabiltzen da.

Bestetik, LNPrako lexikoiak ditugu. Lexikoi terminoak aplikazio batekiko lotura adierazten du. Informazio lexikalaren biltegi hauetan unitate bakoitzari ezaugarri morfologiko, sintaktiko eta semantikoak esleitzen zaizkio; hots, orotariko informazioa maneiatzen dute. Lexikoietan erabiltzen diren errepresentazio-formalismoak sarri teoria jakinetan oinarritzen dira. Ezaugarri-egituren bidezko adierazpidea usu erabiltzen da, eta sistema aurreratuenetan hierarkiak eta herentzia-mekanismoak ere ustiatzen dira.

Horiek guztiak barneratzen ditugu sail honetan.

Lengoaia naturalen prozesamendu sintaktiko eta semantikoa egin ahal izateko, lexikoiak hitz-zerrenda izatetik EBL izatera pasatu dira, hitz eta adierei buruzko informazioa dutenak. EBL baten hizkuntza ulertu ahal izateko, ordenagailuak hitzei buruz jakin beharreko guztia egon beharko litzateke (Yokoi, 1995). EBLen ezaugarri garrantzitsuena herentzia izaten da, adierak klase/azpiklase hierarkien inguruan antolatzen dira eta (Copestake, 1990). EBLak eskuz eraiki daitezke, adibidez WordNet (Miller et al., 1993b) eta EDR (EDR, 1993), baina askotan hiztegietatik erauzten dira (Copestake, 1990; Bruce et al., 1992).

LNPren beste ikuspuntu batetik, HEBek hiztegietatik erauzitako informazioa jasotzen dute (Artola, 1993). Erauzitako informazioaren artean, hemen ere, adieren hierarkiak dira aipagarriak. HEB batetik EBL bat erator daiteke, hiztegitik zuzenean EBL eraiki daitekeen bezala. HEB baten enfasia hiztegiko informazioan da, inplizitu egon eta esplizitu bihurtu dena, giza erabiltzaileak edo programa batek erabiltzeko moduan. EBL baten enfasia, ordea, LNP aplikazioetarako baliagarria izatea da.

EBL eta HEBak eraikitzeko, hiztegietatik erauzi izan den informazio semantikoa definizioen azterketatik etorri ohi da batez ere, adieren hierarkia eratuz, eta hitzen (edo adieren) arteko bestelako erlazio lexikal-semantikoak finkatuz. Lehenbizi, definizioen analisi sintaktikoa egin behar da, eta ondoren, analisiaren emaitzatik erlazio lexikal-semantikoen erauzketa. Erlazio horietan azaltzen diren hitzen desanbiguazioa ere egin behar da, adieren arteko erlazioak eduki ahal izateko.

Ontologiak

Ontologiak, munduari buruzko ezagutzaren biltegiak dira. Gizakiok ezagutza hori lexikoaren bidez adierazten dugunez, baliabide lexikalen arloan ere sarri aipatzen dira. Oro har, ezagutzan oinarritutako sistema informatikoek, lengoaia naturala prozesatzen ez badute ere, ontologiaren bat erabiltzen dute.

Ontologiak mundu errealaren kontzeptualizazioak dira, mundu errealari buruzko inferentziak egiteko gaitasuna dutenak. Definizio hau aukeratu dugu, Adimen Artifizialaren arloan definizio zehatzagoek kontrobertsia pizten baitute, eta ontologien ezaugarri bat delako garrantzitsuena: hierarkia darabiltela bizkarrezur.

Ontologiak aplikazio askotarako eraiki izan dira (softwarearen berrerabilgarritasuna, medikuntzako sistema adituak, datu-base heterogeneoen integrazioa, lengoaia naturalen sorkuntza, ulermena, itzulpena, eta abar), eta normalean, eremu espezifikoetarako eraiki ohi dira. Hala ere, badira ezagutza orokorragoa biltzen saiatzen direnak ere, adibidez Mikrokosmos, Sensus, CYC, etab.

Autore guztiak daude ados ontologiak oso hetereogeneoak direla esatean, norberaren beharretara neurrira eginak. Hala ere, ontologia guztiek edukitzen dute kontzeptu-zerrenda bat eta kontzeptu horien arteko hierarkia, klase/azpiklase erlazioak egituratuta dagoena. Hori izaten da ontologien ezaugarririk garrantzitsuenetako bat, arestian aipatutako definizio guztietan azaltzen dena.

Ontologien artean ditugu WordNet-ak ere, lehenago ere aipatu ditugunak; literalki itzulita: hitz-sareak. Berez, Princeton-go Unibertsitatean garatutako proiektuak egin zuen ezagun termino hau. Hasiera batean baliabide lexikal jakin hori izendatzeko erabili bazen ere, gaur egun hizkuntza askotarako WordNet-ak garatzen ari dira.

Gaian sakonduz

Lengoaia Naturalaren Prozesamendua

(LNP) ( Natural Language Processing, NLP). Hizkuntzaren tratamendu automatikoaren inguruko ikerrarloari Lengoaia Naturalaren Prozesamendua (LNP) esaten zaio, eta, batez ere, erabiliko diren teknika informatikoei erreparatzen die: ezagutza linguistikoa nola adierazi konputagailuan, nola erabili ezagutza hori (algoritmoak, estrategiak, inferentziak sortzeko metodoak, etab.), nola uztartu programetan ezagutza linguistikoa eta hizketa-gaiari dagokion ezagutza, nola banatu tratamendu linguistiko osoa modulu sinpleago eta independentetan horietako bakoitza egingarriagoa izan dadin…

lanaren aipamena nola egin...

Euskara Institutua, EHU, "Lexikoa", Sareko Euskal Gramatika (SEG), www.ehu.eus/seg
ISBN: 978-84-693-9891-3