Erabiltzaile Tresnak


hizk:1:4

Sintaxia

Maila morfologikoa eta sintaktikoa bereizten dituen ezaugarri garrantzizkoena ikuspuntuaren aldaketan datza. Analisi morfologikoan ikuspegi paradigmatikoa dagoen bitartean, morfologiaren ondorengoetan, sintaxiranzkoetan, eta sintaktikoetan ere, sintagmatikoa dugu. Hitza muga dugu lehenengoan eta bigarrenean, aldiz, hitzaren muga gaindituz, hitz hauen konbinazioek sortzen dituzten unitate handiagoak bihurtzen dira aztergai: kateak (chunkak ingelesez), sintagmak, perpausak…. Ikuspegi honi jarraituta, beraz, osagai sintagmatikoaren azterketa maila morfologikoa gainditzen den unean hasten da; hau da, desanbiguazio morfosintaktikotik hasita, analisi sintaktikoa barne. Izan ere, desanbiguazio morfosintaktikoa egiten dugunean hasten gara hitzak duen testuinguruari erreparatzen, eta zer esanik ez analisi sintaktikoa egiten denean, alegia, osagai sintagmatikoen loturak aztertzen direnean. Bai desanbiguazio morfosintaktikoa egiteko, bai analisi sintaktikoan, hurbilpen eta lantzeko modu asko dago erabiltzen den irizpidearen arabera: oinarritzen garen informazioaren arabera, lortu nahi dugun emaitzaren arabera, etab. Azken finean, sintaxira hurbiltzeko hautatzen den ikuspegiaren araberakoak dira desberdintasunak.

Euskararen sintaxia alderdi konputazionaletik nola landu den azalduko dugu atal honetan. Hasteko, eta puntu hau behar den bezala ulertzeko, gainbegiratua emango diogu sintaxiaren tratamendu konputazional orokorrari. Ondoren, sintaxi konputazionalaren deskribapenerako formalismo nagusiak azalduko dira. Bukatzeko, euskararen sintaxi konputazionalean egindako lanak azalduko dira.

Teknika sintaktikoak

Sarrera

Atal honetan sintaxiaren tratamendu konputazionalean egon diren ikuspegi nagusiak azalduko dira eta ikuspegi horiek eman dituzten lan garrantzizkoenak. Lan hauek, alde batetik, sintaxiaren deskribapena edo formalizazioa izango dute helburu eta, beste alde batetik, formalizazio hauek testuen egitura sintaktikoa automatikoki lortzeko erabiltzen dira, analizatzaile sintaktiko edo parser izeneko sistemen bidez. Analizatzaile sintaktikoak, perpaus bat datutzat hartuta, bere egitura sintaktikoa bueltatuko digu.

Sintaxiaren tratamendu konputazionalari ekiteko, bi zailtasun nagusi agertuko zaizkigu:

  1. Osotasuna. Hizkuntza baten sintaxi osoaren deskribapena oraindik burutu gabeko lana da. Nahiz eta hizkuntzalaritzak aurrerakada handiak izan azken urteotan, oraindik urrun gaude hizkuntza baten sintaxiaren deskribapen sistematiko eta oso batetik. Arlo konputazionalean hau nabaria da, sistema automatikoek gramatika-liburuetan deskribatzen ez diren esaldi asko topatzen baitituzte. Adibidez, egunkarietan aurki daitezkeen esaldi luzeak (60 hitzetik gorakoak) edo posta elektronikoko mezu batekoak.
  2. Anbiguotasuna. Esan dugu sintaxiaren deskribapen osorik ez dagoela mementoz, baina deskribapen partziala emanda ere, edozein esaldi arruntentzat aukera asko sortuko dira, gehienak zentzugabeak testuingurua aztertuz gero, baina sintaktikoki zuzenak izan daitezkeenak. Adibidez, “Gizonak etxeak ikusi ditu” perpausak, gutako edozeinentzat arazorik izango ez lukeenak, arazoak eman ahal dizkio sistema automatiko bati, bi modutan uler baitaiteke: Gizonak subjektutzat eta etxeak objektutzat hartuz (interpretazio arrunta), baina baita etxeak subjektu bezala interpretatuz ere lor daitekeena. Beraz, esaldi-mailako tratamenduaren ikergai nagusi bat anbiguotasuna ezabatzearena izango da. Horren zailtasunaren neurri bat emateko, esan dezagun euskaraz hitz-mailako anbiguotasuna 2,6 interpretazio/hitzekoa dela, eta honi gramatika sintaktiko batek lortutako egiturak gehitzen bazaizkio, esaldi normal batek milaka aukera izan ditzakeela. Helburua, beraz, esaldi bakoitzeko analisi bakarra lortzea izango da.

Bi arazo hauek kontuan hartuta, ondorio hau atera dezakegu: edozein sistema automatikok perpaus baten analisia lortu behar du, horretarako aukera posible guztien artean (morfologikoa, sintaktikoa nahiz semantikoa) testuinguru jakinei dagokien egokia aukeratuz.

Hori kontuan hartuta, perpaus baten egitura sintaktikoa era askotan eman daiteke, adibidez, “Zinemako cowboy hark bere etxe handian errezibitu zituen” esaldiaren analisi sintaktikoak hauek izan daitezke:

  • Analisi partzialaren ikuspegiari jarraituta analisi hau eman lezake analizatzaile sintaktiko batek (IK: izen-katea, AK: aditz-katea):

[Zinemako cowboy hark]IK [bere etxe handian]IK [errezibitu zituen]AK .

Sintaxia analizatzeko modu honetan helburua esaldiko atal nagusiak bereiztea da, beraien hasiera eta bukaera kokatuz, eta elementu bakoitzaren ezaugarri morfosintaktikoak eta funtzio sintaktikoei dagozkienak adieraziz (adibide honetan agertzen ez bada ere).

  • Osagai-egituraren ikuspegiari jarraituta, berriz, analisi hau emango liguke:

Kasu honetan kategoria sintaktikoen arabera antolatzen dira esaldiko osagaiak (perpausa (P), izen-sintagma (IS), postposizio-sintagma (PS), eta aditz-sintagma (AS), adibidean).

  • Dependentzia-egituraren ikuspegiari jarraituta, azkenik, analisi hau emango liguke:

Elementu lexikoen, hots, hitzen arteko erlazioak adierazten duen dependentzia-zuhaitza ematen da kasu honetan. Zuhaitzean hitz-bikoteen arteko erlazio bitarrak (mendekoa/gobernatzailea) adierazten dira. Sistema gehienetan erlazio bakoitzak etiketa bat izaten du, erlazio-mota adierazten duena (subjektu, objektu, mendeko perpausa…), adibide honetan agertzen ez bada ere.

Jarraian sintaxi konputazionala sailkatzeko hiru irizpide azalduko ditugu honen deskribapenari ekiteko dauden aukerak kontuan harturik. Hemendik aurrera ikusiko dugu sintaxiaren tratamendu konputazionalean deskribapen formala eta analizatzaile sintaktikoa lotuta agertuko zaizkigula ezinbestean:

  1. Ezagutza linguistikoan oinarritutako sintaxia. Kasu honetan, ezagutza linguistikoa kodetzeko erregelak erabiliko dira, normalean hizkuntzalari batek idatzitako erregelak. Erregela hauek gramatika bat osatzen dute eta, sistema konputazional batek aplikatuz gero, perpausen analisi sintaktikoa lortuko dugu.
  2. Teknika estatistikoetan edo datuetan oinarritutako sintaxia. Sistema hauek eskuz etiketatutako esaldietatik ikasi egiten dute, ikaskuntza automatikoko teknikak edo metodo probabilistikoak erabiliz, eta ikasi ondoren sistemak gai izango dira esaldi berriak analizatzeko.
  3. Ezagutza linguistikoa eta teknika estatistikoen konbinazioa. Bi alderdietako hobekuntzak lortzearren, sistema batzuek konbinatu egiten dituzte.

Ezagutza linguistikoan oinarritutako sintaxia

Ezagutza linguistikoa kodetzeko gramatikak erabili ohi dira. Hauek lehen aipatutako arazo biak (perpausaren analisiak lortu eta zuzena aukeratu) ebazteko erregela multzoak dira, gehienetan pertsona batek eginak. Ezagutza linguistikoan oinarritutako gramatika batek abantaila nabarmenak ditu, izan ere, gizaki batek egiteak zehaztasuna, zorroztasuna eta zuzentasuna lortzea dakar, baina honen kontra, gramatikaren garapenerako kostu handia eta berau mantentzearen zailtasuna aipatu behar dira.

Testuingururik gabeko gramatiketan oinarritutako sintaxia

Gramatikak idazteko orduan, notaziorik erabiliena testuingururik gabeko gramatikena (TGG) izan da, esaldien egitura hierarkiko eta errekurtsiboak definitzeko egokiak baitira. Adibidez:

  1. P → IS-Erg IS-Abs AS
  2. IS-Erg → IZE-ERG
  3. IS-Abs→ IZE-ABS
  4. AS → ADITZA LAGUNTZAILEA
  5. IZE-ERG → gizonak | emakumeak
  6. IZE-ABS → umea | etxeak
  7. ADITZA → ikusi | ekarri | eraman | egin
  8. LAGUNTZAILEA → du | ditu | da | dira

Gramatika hori hartuta, “Gizonak umea ikusi du” esaldiaren analisia eman dezakegu:

Analisi sintaktikorako algoritmoak

Testuingururik gabeko gramatikak analizatzeko, metodo edo algoritmo asko garatu dira urteetan zehar. Metodo hauen guztien berri ez dugu hemen emango, baina algoritmo-mota nagusien ezaugarri garrantzizkoenak aipatuko ditugu:

  • Goitik beherako edo top-down algoritmoek gramatikaren osagai nagusitik hasten dira (P edo perpausa, aurreko adibidean) eta erregelak aplikatzen saiatzen dira esaldiko hitz guztiak estali arte.
  • Behetik gorako edo bottom-up analizatzaileek, berriz, esaldiaren hitzetatik hasten dira erregelak aplikatzen, eta helburua esaldi osoa estaltzen duen P ikurra topatzea izango da.
  • Hurbilpen nagusi bi hauek oinarritzat hartuta, makina bat algoritmo eta sistema garatu dira, baita beraien aldaerak ere: CKY algoritmoa, ezker aldeko edo left corner analizatzaileak…

Baterakuntza Gramatikak

TGG sinple batean erregelek osagai atomikoak besterik ez dituzte deskribatzen. Honen ondorioz egitura sintaktiko sinpleenak (adibidez, izen-sintagma bat komunztadurak kontuan hartuz) zehazki definitzeko dozenaka erregela beharko lirateke, adibidez:

  1. P → IS-Erg-Sing IS-Abs-Sing AS-NORK-HARK-NOR-HURA
  2. P → IS-Erg-Plural IS-Abs-Sing AS-NORK-HAIEK-NOR-HURA
  3. P → IS-Erg-Sing IS-Abs-Plural AS-NORK-HARK-NOR-HAIEK
  4. P → IS-Erg-Plural IS-Abs-Plural AS-NORK-HAIEK-NOR-HAIEK
  5. AS-NORK-HARK-NOR-HURA → du | zuen | dezake
  6. AS-NORK-HAIEK-NOR-HURA → dute | zuten | dezakete

Hau ez gertatzeko, gramatikaren osagaiei informazioa gehi dakieke ezaugarri-egituren bitartez, horrela gramatikaren trinkotasuna eta sinpletasuna bultzatuz. Ikus dezagun komunztaduraren arazoa tratatzeko ezaugarri-egituren bidezko gramatika sinple bat:

  • Erregelak:
    • AS[(1)] → IS[ KAS:(2), NUM: (3)] AS[(1) SUBJ:[ KAS:(2), NUM:(3)]]
    • AS[(1)] → IS[ KAS:(2), NUM: (3)] AS[(1) OBJ:[ KAS:(2), NUM:(3)]]
    • IS[ KAS:(1), NUM: (2)] → IZENA[ KAS:(1), NUM: (2)]
    • AS[(1)] → ADITZA[(1)]
  • Hiztegia (izenkiak):
    • gizonak[KAS:erg, NUM:sing]
    • gizona[KAS:abs, NUM:sing]
    • umea[KAS:abs, NUM:sing]
  • Hiztegia (adizkiak):
    • dakar[ SUBJ:[ KAS:erg, NUM:sing] OBJ:[ KAS:abs, NUM:sing]]
    • dakarte[ SUBJ:[ KAS:erg, NUM:plural] OBJ:[ KAS:abs, NUM:sing]]
    • dakartza[ SUBJ:[ KAS:erg, NUM:sing] OBJ:[ KAS:abs, NUM:plural]]

Ideia nagusia hau da: ekuazioen bidez ikur gramatikalei (hiztegiko hitzak zein kategoria gramatikalak) informazioa gehitzea. Adibidez, gramatika horretako lehen erregelaren deskribapen grafikoa hau izango litzateke:

Hau da, aditz-sintagma bat (AS) izen-sintagma bat eta beste AS bat bilduz lortuko da. Parentesien artean doazen indizeek balioak bat datozela (baterakuntza) adierazten dute. Erregela horretan, beraz, subjektua eta aditzaren arteko komunztadura egiaztatzen da kasu eta numeroan, 2 eta 3 indizeen bidez. Gainera, lortu den osagai nagusiak aditz nagusiaren ezaugarriak izango ditu (1 indizea), hau da, esaldi osoaren analisia aditz nagusiaren proiekzioa dela esaten du erregelak.

Hauek dira izen baten eta aditz baten osagai lexikalen definizioak:

Gramatika horren bidez, erabaki daiteke “gizonak umea dakar” esaldia zuzena dela:

“*gizonak umea dakartza” edo “*gizona umea dakar” bezalako esaldiak, berriz, ez ditu ontzat emango gramatika horrek, ezaugarri batzuk bat ez datozelako komunztaduraren aldetik.

Informazio linguistiko hori erabiltzeko baterakuntza izaten da eragiketarik inportanteena. Deskribapen-ahalmen handi honen kontra baterakuntza-ekuazioen kalkuluaren denbora-kostua dugu, eraginkortasuna moteldu egiten baita.

Egoera finituko mekanismoetan oinarritutako sintaxia

Egoera finituko mekanismoak oso erabiliak izan dira informatikako alor desberdinetan, baina orain dela urte batzuk arte ez ziren egokitzat hartu hizkuntzalaritza konputazionaleko eginkizun nagusietan. Aipagarrienak egoera finituko automatak eta transduktoreak ditugu. Azken urteotan arrakastatsuak izan dira hizkuntzaren tratamenduaren hainbat arlotan: hiztegien kodeketan, testuen prozesamenduan eta ahotsaren prozesamenduan. Azken urteotan lortu diren emaitza matematiko eta algoritmikoei esker (Roche eta Schabes 1997), hizkuntzaren prozesamendu aplikatuan eta ikerketan teknologia ahalmentsu eta eraginkorra dira, eredu linguistikoetan oinarritutako patroi edo txantiloiak definitzeko erraztasuna emanez. Erabiltzaile edo hizkuntzalari baten ikuspuntutik, ezagutza linguistikoa adierazpen erregularren bidez definitzen da, algoritmo eraginkorrak baitaude adierazpen horiek automata bihurtzeko.

Teknika estatistikoetan oinarritutako sistemak

Datuetan oinarritutako sintaxiak edo analisi sintaktiko estatistikoak indar handia hartu du 1990eko hamarkadatik aurrera. Hasiera batean (1980ko hamarkadan gehienbat), sintaxiaren tratamendua ezagutzan oinarritutako metodoetan oinarritzen zen, hau da, hizkuntzalariek eskuz idatzitako gramatiketan. Abantaila nagusia zehaztasuna zen, hizkuntzalaria bere ezagutza kodetzen saiatzen zelako. Desabantailen aldetik, hauek aipa ditzakegu:

  • Garapenerako kostu altua. Honako gramatika baten garapenak kostu handia zuen, hizkuntzalari-talde baten lana eta koordinazioa eskatzen baitzuen.
  • Aldaketak egiteko zailtasuna. Hizkuntza baten gramatika oso konplexua da, askotan eskuz idatzitako milaka erregela daukalarik. Edozein aldaketa txikik eragina izan dezake beste guztietan, eta pentsatu ez diren ondorioak izan ditzake.
  • Anbiguotasuna. Gramatiken bidez deskribatutako sintaxiak, normalean edozein egunkariko esaldiak analizatzeko orduan, aukera asko ematen ditu (normala da esaldi batek milaka analisi sintaktiko izatea). Beraien artean zuzena aukeratzea lan zaila da.

Datuetan oinarritutako sistemen ezaugarri nagusien artean hauek ditugu:

  • Corpus etiketatuen beharra. Analizatzaile mota hauetan lan gehiena corpus etiketatuetatik (corpus hauei treebank edo parser bank deitzen zaie) ateratako probabilitateen bidez egiten da. Gramatikak garatzeko orduan, eskuzko lan gramatikal minimoa egiten da, ezagutza linguistikoa corpusean agertzen diren elementuetatik (eta beren maiztasunetatik) ateratzen baita. Corpus hauen aitzindariak ingelesezkoak izan baziren ere (horietatik famatuena Penn Treebank-a dugu), gaur egun hizkuntza askotarako ditugu treebank-ak eskuragarri. Esan behar da corpus bat etiketatzea lan luzea eta zaila dela, informazio gramatikalaren zati bat automatikoki ateratzen denean ere. Gainera, gertaera linguistikoen deskribapen zabala izateko, corpusak tamaina handia izan behar du. Adibidez, kategoria sintaktikoen trigrametan oinarritutako etiketatzaile batek, 10 kategoria ezberdin edukiz gero, 1.000 trigrama posible izango lituzke, eta milioi bat hitzeko corpus batean, esaterako, fenomeno askoren agerpen-maiztasuna txikiegia gerta liteke. Kategorien etiketatzaileekin arazo hau gertatzen bada, are gehiago sintaxiaren tratamenduan, hizkuntzaren eredu askoz aberatsagoa landu nahi delako.
  • Azaleko sintaxia. Sistema probabilistiko gehienetan azaleko analisia egiten da, nahiz eta egitura sintaktiko sakonak lortzeko zenbait proiektu dauden.
  • Probabilitate edo datuetan oinarritutako analizatzaileen mugak. Adibidez, hitzen kategorien etiketatzaile estatistikoetan % 95-97 inguruko asmatze-neurriak ematen dira zenbait hizkuntzatarako. Nahiz eta neurri hori ona izan aurreko etiketatzaileekin konparatuz gero, horrek problema bat ekarriko dio edozein analizatzaile sintaktikori, esaldi gehienetan etiketatze-errore bat egotea suposatuko lukeelako. Etiketatze-errore horiei analizatzaile sintaktikoak berak egindakoak gehitu beharko litzaizkieke.

Teknika linguistikoen eta probabilistikoen konbinazioak

Estatistika hutsa erabiltzeak arazoak izan ditu testuinguru mugatuetan gertatzen ez diren fenomenoak tratatzeko. Adibidez, trigrametan oinarritutako sistema batean zailtasuna dago hiru hitz baino gehiago hartzen duten gertaera linguistikoak aztertzeko orduan, aditza eta osagarri nagusienen artekoak kasu. Ez, ordea, testuinguru hurbileko erlazioak aztertzeko, izena, adjektibo eta determinatzaileen artekoak, adibidez. Gainera, ikuspuntu estatistiko hutsean oinarritutako gramatikekin lortutako analisiek beste arazo bat dute, emaitza horiek linguistikoki interpretatzea ez baita erraza, eta horrek zailtasun handiak jar diezaizkieke ondorengo prozesuei, interpretazio semantikoa kasu. Hizkuntzalariek idatzitako gramatiketan, aldiz, maila altuko gertaera linguistikoak deskribatu dira gehienbat, sintagmak zein esaldi osoak konbinatzeko, baina arreta gutxiago eskaini zaio esaldi errealetan agertzen den zenbait fenomenori, egitura jakin baten maiztasuna kasu. Horregatik metodo probabilistikoak eta ezagutza linguistikoa lotzeko saioak egin dira, bakoitzaren abantailak biltzeko asmoz. Horren adibide dira LFG edo HPSG formalismo linguistikoen inplementazioak, zeinetan hasieran formalismo linguistiko hutsa zenari ezagutza koantitatibo eta probabilistikoa gehitu zaion, horrela anbiguotasunaren arazoari (esaldi arruntentzat milaka analisi sintaktiko lortzea) aurre egin ahal izateko.

Sintaxi partziala

Oro har, sintaxi konputazionalean bi lerro nagusi bereizten dira: sintaxi osoa eta partziala. Sintaxi osoa egiten denean, esaldien egitura sintaktikoak oso-osorik eta ahalik eta zehaztasun handienarekin eman nahi izaten dira; sintaxi partzialean, berriz, esaldi oso-osoen analisia lortzeko asmorik gabe, kateak (tradizioan chunk deituak) bereizten dira.

Analisi partziala analisi osoaren alternatiba bilakatu da. Nahiz eta, analisi sintaktiko osoak ematen duen informazio zehatza galdu, analisi partzialak eraginkortasunez eta fidagarritasunez egiten dio aurre edozein testu erreal analizatzeko erronkari. Ideia nagusia, informazio morfosintaktikoa abiapuntutzat hartuta, testuak kateetan zatitzea, kateak zehaztea edota esaldi-mugak identifikatzea da, analisi osoa ondoren etorriko den urratserako utziz. Esaldiak kateetara murriztuz, gutxiago dira elkarrekin lotu beharreko unitateak, eta ondorioz, anbiguotasuna gutxitu egiten da. Horrezaz gainera, analizatzaile partzialek ematen duten informazio sintaktikoa baliagarri da hizkuntzaren prozesamenduko hainbat aplikaziotarako, esaterako, informazio-erauzketarako, itzulpen automatikorako edota galdera-erantzunen sistemetarako.

Katearen edo chunk terminoaren lehen hurbilpena Abney-ri (1991) zor zaio. Honen hitzez baliatuta, katea sintagma kategoriako zatia da, eta sintaktikoki erlazionaturiko hitzez osatuta dago. Katearen barneko egitura aztertuz gero, burua eta bere modifikatzaileak bereiziko lirateke. Horrela, bada, testua kateetan zatitzea gainjartzen ez diren eta elkarrekin sintaktikoki erlazionaturik dauden hitz multzoak atzematean datza. Hitz multzo horiek, beraz, ez-errekurtsiboak izango dira, hau da, ezin dute beren baitan beste hitz multzorik edota katerik izan. Adibidez, Zinemako cowboy hark bere etxe handian errezibitu zituen esaldia honela zatituko litzateke:

[Zinemako cowboy hark] [bere etxe handian] [errezibitu zituen]

Dena den, kateak definitzea edo mugatzea ez da hain erraza izan literaturan zehar. Oro har, adostasuna badago ezagutu behar diren kate sintaktikoak zein diren adierazteko garaian; esaterako, izen-sintagma eta postposizio-sintagma. Ezadostasun handiagoa dago, ordea, beste zenbait zatirekin: aditz-sintagma eta mendeko perpausak.

Formalismo gramatikalak

Sintaxi konputazionalaren deskribapena egiteko formalismo asko garatu izan dira eta garatzen ari da une honetan. Atal honetan, horietatik guztietatik batzuk besterik ez ditugu aipatuko, gure ustez mugarri bat jarri dutenak. Horretarako saiatuko gara goiko atalean egindako banaketari jarraituz aipamenak egiten. Hasteko, testuingururik gabeko eta baterakuntza-gramatikako multzoko bi gramatika-formalismo aipatuko ditugu: Lexical Functional Grammar eta Head Driven Phrase Structure Grammar. Gramatika-formalismo hauek, TGGetan oinarrita daudenez, eraikitzaileak dira, erregela-multzo bat aplikatuz egitura sintaktikoak eraikitzen baitira. Ondoren, Egoera Finituko Mekanismoa jarraituz garatu den Murriztapen Gramatika (MG) azalduko dugu. MG murriztailea da, hasieran hitz bakoitzaren interpretazioak emanda, horiek ezabatzen/baztertzen joango direlako gramatikako erregelak. Bukatzeko, Dependentzia Gramatika azalduko dugu. Gramatika hauek TGG klasikoetatik aldentzen dira: hauetan ez baitira osagai sintaktiko abstraktuak definituko (izen-sintagma edo perpausa bezalakoak), eta zuhaitzean lotuko diren osagaiak hitzak izango baitira, beraien arteko erlazioa zehaztuz.

Lexical-Functional Grammar (LFG)

Lexical Functional Grammar teoriaren analizatzaile bat baino gehiago garatu dira. Teoriaren oinarria baterakuntza da, eta bi modutara adierazten da ezagutza gramatika-formalismo honetan:

  • Osagai sintaktikoen egitura TGG baten bidez adierazten da (c-structure)
  • Funtzio gramatikalen adierazpena (f-structure) ezaugarri-egituren bidez ematen da

Teoria honen helburu nagusienetako bat hizkuntzalarientzat zein informatikarientzat egokia izatea da, hau da, aldi berean hizkuntzalaritza teorikoko jendeak gustuko izateko, baina aplikazio konputazionalerako aspektuetan indarra emanez, hau da, formalizazio zurruna eta analizatzaile automatikoak sortzeko deskribapen zorrotza eginez.

Inplementatutako sistemen artean ParGram (parallel grammar) proiektuko lana izan daiteke aipagarriena. Sistema honetan era paraleloan estaldura zabaleko LFG gramatikak ari dira garatzen hizkuntza askotarako, horien artean ingeleserako, frantseserako eta alemanerako. Teoria eta praktika lotzeko lehen printzipiotzat analisien motibazio linguistikoa dute, baina tratatzen diren egitura linguistikoak testu-corpusen maiztasunen arabera erabakitzen dira, eta eraginkortasunaren galera ekar dezaketen fenomenoentzat soluzio bereziak (pragmatikoak beraien esanetan) landu izan dira. Horrekin batera analizatzailearen probarako corpusak prestatu dira eta garapenerako ingurune batean integratu. LFG teoriak anbiguotasunari buruzko ezer adierazten ez duen arren, garatu diren sistemetan analisien ugalketa izugarria saihesteko, teknika probabilistikoekin konbinatu da, perpaus bakoitzeko analisi bakarra lortu ahal izateko.

Head-Driven Phrase Structure Grammar (HPSG)

Head-Driven Phrase Structure Grammar azken urteotan indar handia hartu duen lengoaiaren teoria da, beste teoria askotatik (LFGtik, adibidez) ideia desberdinak hartu dituena. Gramatika-formalismoa baterakuntzan oinarrituta dago Teoria honetan lexikoiari testuingururik gabeko gramatikari baino garrantzi handiagoa eman zaio, erregelak oso eskematikoak dira, eta zenbait sistema inplementatu dira hizkuntza desberdinetarako. Hasiera batean HPSG sistemen asmo nagusia lengoaiaren teoria garatzea bazen ere, dagoeneko sistema sendoak garatu dira, hizkuntza askotarako gramatika zabalak eta analizatzaile eraginkorrak (adibidez, ENJU ingelesezko HPSG analizatzailea edo hizkuntza askotarako gramatika eta analizatzaile sendoen garapenerako DELPH-IN proiektua).

Murriztapen Gramatika

Murriztapen Gramatika (MG) (Constraint Grammar ingelesez), egoera finituko mekanismoetan oinarritzen da, eta hizkuntzalaritzaren ikuspegitik oso gramatika-formalismo intuitibo eta erabilerraza da. Hizkuntzalariek idatziriko erregelak testuinguruaren mendeko dira eta gramatiketan konpilatuko dira. Helburua hitzei dagozkien etiketak esleitzea da. Etiketak era askotarikoak izan daitezke, ohikoenak hauek dira: lemari, inflexioari, eratorpenari edota funtzio sintaktikoari dagozkienak. Esaldi baten testuinguruaren arabera, erregelen bidez interpretazioak gehitu, ezabatu edo aukeratu ahal izango dira.

Batez ere ahaltsua da desanbiguazio-lanetarako, hau da, analisi morfologikoa egin ondoren gelditzen diren anbiguotasunak ebazteko eta hitz bakoitza testuinguru batean, dagokion analisiarekin uzteko aproposa da. Izan ere, MGren zeregin nagusia hitz mailako anbiguotasunari aurre egitea da. Hori dela eta, hitz batek izan ditzakeen interpretazio desberdinetatik, batekin gelditzea du helburu, gainerako interpretazioak urratuz. Horrela ikus dezakegu ondorengo Zinemako cowboy hark bere etxe handian errezibitu zituen esaldian, hitz bakoitzak duen analisietatik, laukitxoetan dagoen analisia aukeratu eta gainerakoak baztertu egin direla, ez direlako testuinguru horretan egokiak:

Ohiko MG gramatikak milaka erregelez osatuta egoten dira. Urratsez urrats aplikatuko dira erregela horiek analisian sakondu ahala. Erregela seguruenak gramatikaren hasieran kokatuko dira, azkenerako heuristikoak lagatzen dira.

Era berean, MG bidez analizatutako esaldiak hitzen arteko erlazioaren berri ere emango du. Hala ere, analisia azalekoa eta lineala da, hau da, arbolarik edo egitura hierarkikorik ez da zuzenean sortzen.

Hizkuntza anitzetarako idatzi izan dira murriztapen-gramatikak, guztiak publikatu ez badira ere, horien artean ingeleserako EngCG Constraint Grammar (Karlsson et al. 1995), turkierarako (Oflazer & Kuruöz 1994), frantseserako (Chanod & Tapanainen 1995), suomierarako, suedierarako, swahilirako, danierarako, alemanerarako, portugeserako eta gaztelerarako (Sánchez 1997).

Euskaraz egindako desanbiguazio-gramatika morfosintaktikoa (EUSMG deitua) duela urte batzuk bukatuta dago eta luze azalduta dago (Aduriz 2000) tesi-lanean eta hainbat publikaziotan (Aduriz et al. 2003; Aduriz eta Diaz de Ilarraza 2004). Halaber, lan honetatik ateratako tresna, lematizatzailea (EUSLEM deitua), hainbat aplikaziotan erabili izan da.

Dependentzia Gramatika

Dependentzia Gramatika Lucièn Tesnière hizkuntzalari frantsesak proposatutako eredu teorikoa da. Eredu honetan, esaldia osatzen duten elementu lexikoez gain, euren arteko erlazioa zein den ere adierazten da. Zehatzago esanda, esaldiaren egitura sintaktikoa esaldia osatzen duten elementu lexikoen arteko binakako dependentzia-erlazioan datza. Erlazioan dauden bi elementu horien arteko lotura modu hierarkikoan egiten da; horrela, biak lotzerakoan, bata gobernatzailea izango da eta bestea, mendekoa:

  • A da Bren gobernatzailea, edota B da Aren mendekoa

Halaber, elementu lexiko bakoitzak gobernatzailea izango du; baina elementu lexiko guztiek ez dituzte mendekoak izango.

Eredu honetan oinarritutako esaldi-egiturak dependentzia-zuhaitzen bitartez irudika daitezke. Hauetan, erroan (gurasorik gabeko adabegia) izan ezik, zuhaitzeko gainerako adabegietan, barne-adabegietan (gurasoak eta umea(k) dituzten adabegiak) zein hostoetan (umerik gabeko adabegiak), elementu lexikoak daude, hitzak, alegia.

Dependentzia Gramatikan, esaldiko aditz nagusia da gobernatzailea eta, hain zuzen ere, aditza agertzen da hierarkiako mailarik gorenean dependentzia-zuhaitzean. Gainerako hitzak aditzaren inguruan antolatzen dira. Adibidez, Zinemako cowboy hark bere etxe handian errezibitu zituen esaldiaren dependentzia-zuhaitzean ikus daitekeen moduan, cowboy, etxe eta zituen hitzak, alegia, sintagmetako gobernatzaileak eta aditz laguntzailea, errezibitu aditz nagusiaren mendekoak dira; era berean, zinemako eta hark hitzak, sintagmako gobernatzaile den cowboy hitzaren mendekoak, eta bere eta handian hitzak, berriz, sintagmako gobernatzaile den etxe hitzarenak. Hierarkia horretan, gobernatzaileak goiko mailan agertzen direnak dira, eta mendekoak beheko mailakoak.

Mendekotasun- edo dependentzia-erlazioak ezartzeko eta erlazio horietan gobernatzailea eta mendekoa bereizteko irizpideek garrantzi handia izan dute Dependentzia Gramatikan. Irizpide horiek Dependentzia Gramatikan ez ezik buru sintaktikoak garrantzi handia duen beste lanetan ere, osagai-egituran oinarritutako ereduak barne, eztabaidatuak izan dira. Hona hemen Hudson-ek (1990) proposatzen dituen irizpideak egitura (E) batean gobernatzailearen (G) eta mendekoaren (M) arteko erlazio sintaktikoa gauzatzeko:

  1. Gk Eren kategoria sintaktikoa zehaztuko du eta E ordezka edo adieraz dezake.
  2. Gk Eren kategoria semantikoa zehaztuko du; Mk zehaztasun semantikoa emango du.
  3. G derrigorrezkoa da; M ez da derrigorrezkoa.
  4. Gk M aukeratuko du eta M derrigorrezkoa ala aukerazkoa den zehaztuko du.
  5. Mren forma Gren araberakoa da.
  6. Mren hurrenkera lineala Grekiko zehaztuta dago.

Ikus daitekeen bezala, zerrenda horretan irizpide desberdinak daude, batzuk sintaktikoak eta beste batzuk semantikoak.

Dependentzia-zuhaitzean, halaber, bi hitzen arteko loturetan agertzen diren dependentzia-etiketek mendekoek betetzen dituzten funtzio sintaktikoak adierazten dituzte. Hala, cowboy izenaren modifikatzailea dela adierazten duen ncmod etiketa esleitu zaio Zinemako hitzari eta detmod etiketa hitz beraren mende dagoen determinatzaile kategoriako hark hitzari. Era berean, errezibitu aditzaren mendeko den cowboy hitzari subjektuaren funtzioa betetzen duela adierazten duen ncsubj etiketa esleitu zaio. Bestalde, bere etxe handian sintagmako etxe gobernatzailearen mende dauden bere eta handian hitzen ncmod etiketek bere modifikatzaileak direla adierazten dute, eta etxe bera errezibitu aditz nagusiaren modifikatzailea. Azkenik, aditzaren mende dagoen zituen hitzari aditz laguntzaileari dagokion auxmod etiketa esleitu zaio.

Tesnière-ren eredu honek teoria gramatikal eta formalismo desberdin ugari hartzen ditu bere barruan; hala, dependentzia-gramatika teoria ezagunenen artean ditugu: Word Grammar (WG) (Hudson, 1996), Functional Generative Description (FGD) (Sgall et al., 1986), Dependency Unification Grammar (DUG) (Hellwig, 2003) eta Meaning-Text Theory (Mel'cuk, 1988). Horiek ez ezik, murriztapenetan oinarritutako dependentzia-gramatikek ere tradizio handia izan dute: Constraint Dependency Grammar (CDG) (Maruyama, 1990), Functional Dependency Grammar (FDG) (Tapanainen eta Järvinen, 1997) eta Topological Dependency Grammar (TDG) (Duchier eta Debusmann, 2001). Dependentzia-gramatikei buruzko sintesia Dependency Grammar Logic (DGL) (Kruijff, 2001) lanean aurki daiteke.

Euskararen dependentzia-gramatika konputazionala (EDGK-I) ere MG formalismoa jarraituz definitu da (Aranzabe, 2008).

Euskararen sintaxiaren tratamendu automatikoa. Baliabideak eta tresnak

Sarrera

Atal honetan, sintaxiaren tratamendu konputazional orokorrean baino, euskararen tratamendu automatikoaren gainean egin diren lanak eta tresnak azalduko ditugu. Hasteko, euskararen zuhaitz-bankua edo treebanka deskribatuko da, hau baita ondorengo ikerkuntza linguistikoetan eta hizkuntzaren tratamendu automatikoan erabili eta erabiliko den baliabide nagusienetako bat. Ondoren, euskararen gaineko testuingururik gabeko gramatikak izango dira aztergai. Jarraian, egoera finituko, hots, Murriztapen Gramatikan oinarritutako zenbait baliabide eta tresna azalduko dira, horien artean aipagarrienak desanbiguazio morfologikorako gramatika, kate sintaktikoak edo chunk-ak detektatzeko gramatika eta dependentzietan oinarritutakoa izanik. Bukatzeko, datuetan oinarritutako sintaxia edo sintaxi enpirikoa aztertuko da.

Euskararen zuhaitz-bankua edo treebank-a

Euskararen zuhaitz-bankua AnCora proiektuan definitu eta garatu da. Proiektu horren helburua sintaktikoki eta semantikoki etiketatutako hiru corpus (bata, gaztelaniarako (Cast3LB); bestea, katalanerako (Cat3LB) eta hirugarren bat euskararako (Eus3LB)) osatzea izan da (Palomar et al., 2004). Corpusak etiketatzeko eredu sintaktiko desberdinak aztertu ondoren eta hizkuntzen ezaugarriak kontuan izanik, lehen biek osagaietan oinarritutako eredua jarraitu dute; euskarazkoa osatzeko, aldiz, dependentzia-erlazioetan oinarritutako formalismoa jarraitu da.

Euskararen kasuan, dependentzia-ereduaren bidetik jotzea erabaki da bi arrazoi nagusirengatik: bata, egokiagoa delako hurrenkera librea duten hizkuntzentzat, eta bigarrena, erraza eta intuitiboa izateaz gain, erlazio semantikoak adierazteko bidea ematen duelako, esaterako, rol tematikoei dagozkien etiketak gehituz.

Eredu hori jarraituz etiketatu da sintaktikoki Euskararen Prozesamendurako Erreferentziazko Corpusa (EPEC) eta horren emaitza da, hain zuzen ere, 300.000 hitzez osaturiko euskararen zuhaitz-bankua. Zuhaitz-banku honetan testuko esaldi bakoitza erlazio gramatikal batzuekin markatu da, mendekoaren eta bere gobernatzailearen arteko dependentzia sintaktikoa zehaztuz.

Erlazio gramatikal horiek gauzatzeko Carroll et al.-ek (2003) proposatutako etiketatze-eskema erabili da. Estandarra den sistema honetaz baliatzea egokia iruditu zaigu, horrela beste hizkuntzetarako dauden sistemekin bateragarria egin ahal izateko. Beraz, oro har ingeleseko terminologia bera erabili da euskaraz dependentzia-etiketak izendatzerakoan; dena den, hizkuntzaren ezaugarriak hala eskatuta zenbait dependentzia-etiketa berri sortu behar izan dira. Guztira 26 dependentzia-etiketa baliatu dira; horiek zein diren ondoko irudian ikus daitezke, beraien deskripzioa, berriz, (Aldezabal et al., 2007; Aranzabe, 2008) lanetan egin da.

Zuhaitz-bandu edo treebank honek erabilera asko izango ditu:

  • Ebaluazioa. Baliabide hau erabilita, sintaxi konputazionalaren edozein ataza egiten duten tresnen emaitza konparatu ahal izango da zuhaitz-bankuan dagoenarekin, horrela tresna automatikoen doitasuna eta estalduraren neurriak emanez. Honela, tresna horren fidagarritasunaren estimazioa izango da.
  • Kontsulta. Bilaketak egin daitezke irizpide askoren arabera. Honek gertaera linguistikoen agerpenak eta adibideak ateratzeko aukera emango du.
  • Analizatzaile automatikoen sormena. Zuhaitz-banku hau erabiliz, sistema automatikoak gara daitezke metodo estatistikoak edo ikasketa automatikoa aplikatuz.

Esan behar da dagoeneko erabilia izan dela 2007ko Conference on Computational Natural Language Learning (CoNLL 2007 Shared Task on Dependency Parsing) lehiaketan, hots, metodo edo sistema berriak probatzeko urtero antolatzen den lehiaketan, kasu honetan egin beharreko lana analizatzaile sintaktikoen ebaluazioa zelarik.

Testuingururik gabeko gramatiketan oinarritutako euskararen analizatzaileak

Euskararen TGG bat idazteko orduan, lehen zailtasuna analisi sintaktikorako oinarrizko unitatea erabakitzearena da. Zein da unitatea, hitza ala hitzaren barruko morfemak? Bien aldeko arrazoiak daude:

  • Hitza unitate gisa. Hau bat dator hizkuntza gehienetan egin den deskribapen sintaktikoarekin. Hitza unitatetzat hartzearen lehen ondorioa izango da beste hizkuntzetarako egin diren analizatzaileak eskuragarri egongo direla euskararen tratamendurako.
  • Morfema unitate gisa. Euskararen deskribapen gehienetan morfema hartu da oinarrizko osagaitzat. Adibidez, “Mendiko etxe handi bati” sintagman, -i morfema sintaktikoki izen-multzo osoari (“Mendiko gizon bat”) dagokiola esan daiteke, eta ez soilik bat hitzari. Ikuspuntu honetatik hartuta, analizatzaile sintaktikoak morfemak hartuko lituzke oinarrian, eta beraiek konbinatuz lortuko litzateke egitura sintaktikoa. Bide hau euskararen ezaugarriak dituzten beste hizkuntza batzuetarako ere proposatu da (hebreera edo turkiera, adibidez).

Bi aukeretarako arrazoiak daudenez, euskararen tratamendu sintaktikoa bi eratara abia daiteke, hitzetan edo morfemetan oinarrituta. Morfemetan oinarritutako deskribapenak izan dira erabilienak, horren adibide bat Patxi Goenagaren Gramatika bideetan (1978) liburuan egindako deskribapena izanik. Adibidez, hau izan daiteke euskarazko “mendi horretako etxe handi bati” izen-sintagmaren analisia, Goenagaren deskribapena jarraituz (IM: izen-multzoa, IS: izen-sintagma, Dek: deklinabide-atzizkia, Izlg: izenlaguna).

Ikusten denez, “i” morfema ez zaio lotzen soilik “bat” hitz-formari, baizik eta sintagma osoari, nahiz eta datiboari dagokion atzizkia “bat” hitzak hartu. Berdin egiten da “tako” morfemarekin, “mendi horretako” izenlaguna osatzeko.

Euskararen kasuan, bi saio egin dira morfemetan oinarritutako sintaxia lantzen:

  • Hitzaren gramatika. Euskarazko hitzek morfema bat baino gehiagoz osatuta daude normalean, eta morfema hauek konbinatu behar dira hitz osoaren informazioa izateko. Honetaz arduratzen den hitz-gramatika garatu da IXA ikerkuntza taldearen barruan. Gramatika horrek hitzaren barruko osagaiak konbinatzen ditu, adibidez, “emetasunarena” hitzaren analisi-zuhaitza behean dugu (Eli: osagai eliptikoa, Atz: atzizkia). Zuhaitz horretan morfemen arteko erlazio hierarkikoak zehazten dira: hasteko, “eme” adjektiboari “-tasun” eratorpen-atzizkia lotuta, izena sortuko da; gainera, “-aren” morfema gehituz gero, izenlaguna lortzen da; bukaeran, izenlagun hori kasu-marka lotuta duen osagai eliptikoari lotuko zaio, hitz osoaren analisia emanez.

  • Perpausaren gramatika. Kasu honetan, gramatika partziala garatu da, egunkari bateko edozein esaldi analizatzeko gai izango ez dena, baina bai izen-sintagmak, aditz-kateak eta perpaus sinple eta konposatuen mota batzuk analizatuko dituena. Hau da, esaldi guztiak osorik analizatzen ez dituen arren, gramatikak esaldi horretako osagaiak ulertzen ditu eta egitura sintaktiko bat esleituko die. Euskararen gramatika honetan, azken finean Goenagaren Gramatika bideetan (1978) liburuko erregelak landu dira, bertsio konputazional bat (prozesadore sintaktiko batek ulertu eta erabiltzeko moduan jarrita) garatuz eta zehaztuz. Gramatika honen deskribapena K. Gojenolaren tesi-lanean (2000) azalduta dago.

Bestalde, hitza unitatetzat hartuta ez dago, guk dakigunez, testuingurik gabeko gramatiketan oinarritutako euskarazko analizatzailerik. Hitz-mailan deskribatuta daude, ordea, euskararen zuhaitz-banku sintaktikoak, eta beraietan oinarrituta analizatzaileak sortzeko aukera irekitzen da.

Euskararen egoera finituko sintaxi-tresnak

Denak egin dira CG-2 parserra erabilita (The Constraint Grammar Parser CG-2. Publications No. 27. Department of General Linguistics, University of Helsinki, (ISBN-951-45-7331-5)).

Atal honetan azalduko diren gramatikak egoera finituko mekanismoetan oinarrituta daude. Hiru dira: desanbiguazio-gramatika, sintagma-zatikatzailea (chunker) eta dependentzia-analizatzailea. Orain arte teknika sintaktikoez aipatu ditugun ezaugarrien artean, tresna hauek dituzten nabarmenenak hauek lirateke: hitza dute unitate gisa eta sintaxi partziala egiten dute.

Desanbiguazio-gramatika

Anbiguotasun morfosintaktikoa hizkuntzaren tratamendu automatikoan aurki dezakegun arazorik handienetakoa da. Aurretik egin den analisi morfologikotik dator anbiguotasuna; beraz, oso lotua dago analisi morfologikoaren mailan hartutako erabakiekin. Anbiguotasun morfosintaktikoa detektatu ondoren, honen desanbiguazioari ekin behar izaten zaio. Esan bezala, atal hori arras garrantzizkoa da hizkuntzaren tratamendu automatiko osoan. Urrats hori aurrera eramateko milatik gora erregela dituen gramatika osatu da, irizpide linguistikoak jarraituta egindakoak.

Egoera finituko tresnon ezaugarriak aipatzerakoan, unitate gisa hitza dutela aipatu da. Hain zuzen ere, hitzak duen anbiguotasuna hartuko du kontuan gramatika desanbiguatzaile honek. Alegia, anbiguotasun sintaktikoa, semantikoa ala pragmatikoa ez dira tratatuko, ez bada ezaugarri zehatz batzuena, funtzio sintaktikoena ala mendeko atzizkiena kasu.

Zer desanbiguatzen du, beraz? Anbiguotasun morfologikoa, eta morfosintaktikoa. Adibideen gainean ikusiko dugu aurretik agertu den “Zinemako cowboy hark bere etxe handian errezibitu zituen” esaldiaren analisi anbiguoa aztertuz.

  • Anbiguotasun kategoriala ebazten du: bere hitza determinatzailea eta aditza izan daiteke (beretu aditza).
  • Anbiguotasun morfologikoa: etxe absolutibo mugagabea izan daiteke (“zenbait etxe ikusi ditut”) eta kasu honetan bezala, etxe informazio morfologikorik gabeko hitza da hurrengoarekin osatzen duelako sintagma. Beste adibide bat zinemako hitzean aurkitzen da. Izan ere, -ko atzizkia, genitiboaz gain deskribatzailea eta banatzailea ere izan baitaiteke.
  • Eta horrek, nola ez, funtzio sintaktikoetan du eragina. Alegia, lehen kasuan (etxe), absolutibo mugagabeak hiru funtzio sintaktiko ditu aukeran: subjektuarena, objektuarena eta predikatiboarena. Informazio morfologikorik gabeko aukerak, berriz, ez du funtzio sintaktikorik aukeran. Hori anbiguotasun morfosintaktikoa litzateke.
    Hemen azaldu ez diren beste kasu batzuk ere tratatzen dira gramatika desanbiguatzaile honetan, hala nola, mendeko atzizkiei dagokiena eta aditzen aspektu eta modu-denborari dagokiona ere.

Gramatika honek sei atal dauzka eta parserrak atal guztiak bertan daudela egiaztatzen du, hutsik badaude ere (NIL markarekin). Atalen zehaztapenak azalduko ditugu segidan.

  1. Esaldiak mozten dituzten puntuazio-markak definitu behar dira lehenik.
  • Puntuekin batera, puntu eta koma, galdera-ikurra, etab. izango dira hemen definituko direnak:
DELIMITERS = "<$.>" "<$;>" "<$?>" "<$!>".
  1. Ezaugarri-multzoen deklarazioa egin behar da ondoren.
  • Erregeletan, tratatzen ari den hitzaren testuinguruari erreferentzia egiteko, elementu gramatikalen ezaugarriak erabiltzen dira (kategoria, kasua, mugatasuna, etab.). Askotan antzeko ezaugarriak dituzten elementuak multzoka daitezke eta erregeletan erabili ahal izateko aurretik definitu behar dira. Multzo horiek atal honetan definitzen dira. Ikusi ondoko adibideak:
 LIST ADL (aditz laguntzailea) = “izan” “*edun” “*edin” “*ezan” 
 LIST PERIFRASTIKOAK = ADOIN (aditzoina) BURU (burutua) EZBU (ezburutua) GERO (geroaldia)
  1. Funtzio sintaktikoen islapen-erregelak (morphosyntactic mappings) egin daitezke.
  • Islapenaren funtzioa informazioa gehitzearena da. Normalean ezaugarri morfologiko eta sintaktikoen arteko harremanak islapen-erregelen bidez adierazten dira. Islapenak interpretazio morfologiko bati funtzio sintaktiko bat esleitzen dio. Datu-basetik ez datozen funtzio sintaktikoak esleitzeko erabiliko dira. 83 islapen-erregela daude gramatikan.
  • Islapen-erregelek honako formatua dute:
<eragilea, etiketa sintaktikoa, TARGET hitza, helburu-interpretazioa, IF hitza, testuinguruko baldintzak>
MAP (@-JADNAG) TARGET (ADI) IF (0 BURU) (1 ADL);
  • Adibidea: Basoan biziaz aberetu EGIN dira
  • Lantzen ari garen elementuaren posizioa zenbaki baten bitartez adierazten da (ik. beherago desanbiguatzeko erregelak azaltzean honi buruz esaten dena). Zenbakia positiboa edo negatiboa izan daiteke, eskuina edo ezkerra adierazteko (adibidez, (1 ADL) eskuineko alderdiari egingo dio erreferentzia). “0” posizioa, berriz, aztertzen ari garen hitzari berari egiten dio erreferentzia (adibidez, (0 BURU)).
  • Hau guztia ikusita, honela parafrasea daiteke goian jarri dugun islapen-erregela: islatu @-JADNAG funtzio sintaktikoa aditz (ADI) kategoria duten formei, baldin eta forma bera burutua (0 BURU) bada eta eskuinetara aditz laguntzailerik (1 ADL) badu.
  1. Desanbiguatzeko erregelak definitzen dira azkenik.
  • Erregela-mota bera erabiltzen da desanbiguazio morfosintaktiko nahiz sintaktikorako (mendeko atzizkiei dagozkienak, adibidez). Erregelek fenomeno orokorrak eta partikularrak tratatzen dituzte. Eremu hauez osatuak daude:
<(domeinua) eragiketa, helburu-interpretazioa, IF hitza, tratatzen ari den hitzaren baldintzak, testuinguruko baldintzak>
  • Ikus ditzagun elementuok adibide honetan:
REMOVE (ADI) IF (0 ADJ) (NOT -2 DET)(-1 ZERO) (1 DET)
  • Adibidea: Bizitoki JAKIN bat ez zutela …
  • Erregela hau horrela parafrasea daiteke:
  • Ezabatu aditzaren interpretazioa (ADI), baldin eta tratatzen ari garen forma adjektiboa ere bada (0 ADJ) eta ezkerretara, bi hitzetara, ez badu determinatzailerik (NOT -2 DET); ezkerretara hitz batera morfema gabeko elementurik badu (-1 ZERO) eta eskuinetara, posizio batera, determinatzailerik badu (1 DET).
  • Desanbiguazio-erregelak ataletan bana daitezke ziurtasun-mailaren arabera. Euskararako egin dugun gramatikan lau atal bereizi dira: lehenengoak erregela morfosintaktiko ziurrenak jasotzen ditu; bigarrenak, ziurtasun-maila txikiagoko erregela morfosintaktikoak; hirugarrenak, ordea, erregela sintaktiko ziurrak jasotzen ditu eta laugarrenak, azkenik, erregela sintaktiko ez-ziurrak eta oro har, behin behinekoak direnak. Gainera, ataletan banatze honek nolabaiteko ordena jartzen du gramatikan, bestela, horrenbeste erregelarekin nekez lortuko litzatekeena.
  • Euskararako gramatikan 1.113 desanbiguazio-erregela daude: lehenengo sekzioan 672; bigarrenean 45; hirugarrenean 289 eta laugarrenean 107.
  • Desanbiguazio-emaitzei begiratu azkar bat emateko anbiguotasunaren tamainaz hitz egin behar da lehenik. 14.000 hitzeko corpus baten gainean egindako neurketen arabera, hitzen ia % 40 da anbiguo kategoriari begiratuta eta anbiguotasun morfosintaktiko osoari begiratuta ia % 70. Beste hitz batzuetan esanda, hitz bakoitzak ia hiru interpretazio ditu. Beste hizkuntzetan zer anbiguotasun maila dagoen ikustea arazoaren tamaina ikusten laguntzen ahal digu. Horrela, anbiguotasun osoari begiratuta, gaztelaniaz % 43koa dute, ingelesez % 35, suedieraz eta hebraieraz % 60, adibidez. Esan beharra dago zaila dela modu zorrotz batean konparatzea, oinarri-testuak eta etiketa-sistemak desberdinak direlako.
  • Desanbiguazio-gramatika aplikatu ondoren, anbiguotasun morfosintaktikoa ia erdiraino jaisten da eta kategoriala erdia baino gehiago: % 40tik % 17ra.
  • Horrela Murriztapen Gramatikaren aurkezpenean erabili dugun adibide bera ekarriko dugu hona, hartara, desanbiguatze-gramatikak duen xede nagusia gogoratze aldera: hitz bakoitzeko analisi bakarra lortzea. Horrela, honako adibide honetan hitz bakoitzak duen analisietatik, laukitxoetan dagoen analisia aukeratu eta gainerakoak baztertu egin dira, ez direlako testuinguru horretan egokiak:

  • Ondoren aplikatuko diren tresnek, kate sintaktikoak lortzeko edota dependentzia-etiketak esleitzeko, hain zuzen ere, desanbiguatutako irteera hori izango dute oinarri. Beraz, desanbiguatze-urratsa oso garrantzitsua da.

Sintagma-zatikatzailea (IXAti chunker-a)

Kate sintaktikoak edota chunk egiturak ezagutzeko baliatzen diren gramatiken funtsa beregainak diren eta gainjartzen ez diren azaleko egitura sintaktikoak ezagutzean datza. Egitura horiek ezagutzeko bi gramatika definitu dira: aditz-kateen gramatika eta sintagmen gramatika.

Gramatika horietan definitutako erregelen bitartzen ezagutzen diren egitura sintaktikoak analisi-katean zein diren adierazteko, ehunekoaren ikurra erabiltzen da eta honen ondotik etiketen laburtzapenak:


Aditz-kateen gramatika: gramatika honetan, aditz-kate jarraituak eta gehienez ere hiru osagai dituzten aditz-kate ez jarraituak ezagutzen dira. Aditz-kateak ezagutzeko erabiltzen diren etiketak, berriz, hauek dira: %ADIKATHAS, aditz-kate jarraitu bateko lehenengo hitzari esleitzen zaion etiketa; %ADIKATBU, aditz-kate jarraitu bateko azken hitzari esleitzen zaiona; %ADIKAT, elementu batez osatutakoari; %ADIKATETENHAS, aditz-kate ez jarraituetako lehen hitzari dagokio; %ADIKATETEN, aditz-kate ez jarraituetako bigarren hitzari dagokiona eta %ADIKATETENBU, aditz-kate ez jarraituetako azken hitzari dagokiona.

Sintagmen gramatika: sintagmak ezagutu ahal izateko, aditz-kateekin egin den bezalaxe, ondoko etiketak definitu dira: sintagmen hasieran (%SIH) eta bukaeran (%SIB); eta hitz bakarreko sintagmetan (%SINT).

Etiketa hauen bidez zer nolako egiturak ezagutzen diren ilustratze aldera, hona hemen zein den esku artean dugun Zinemako cowboy hark bere etxe handian errezibitu zituen esaldiaren analisi automatikoa:

Analisi horrek erakusten duen moduan, hiru kate sintaktiko dira esplizitu egin direnak: lehena, Zinemako cowboy hark sintagma; bigarrena, bere etxe handian sintagma eta hirugarrena, errezibitu zituen aditz-katea. Lehen bi kateetan, %SIH eta %SIB etiketen bitartez adierazi da bakoitza non hasi eta non bukatzen den. Eta hirugarrena, aditz-katea, %ADIKATHAS eta %ADIKATBU etiketen bitartez etiketatu da.

Kate sintaktiko horiek ezagutzeko definitu diren erregelak esaldiko hitz bakoitzak duen funtzio sintaktikoaren etiketan (@ ikurraz markatua) eta hitzen arteko dependentziak adierazten dituzten txikiago (<) eta handiago (>) ikurretan (modifikatzen duten gobernatzailea zein norabidetan dagoen adierazten dute) oinarritzen dira besteak beste. Horrela, bada, sintagmek esaldian betetzen dituzten funtzio sintaktiko nagusiak kasu-marka daramaten hitzei esleituko zaizkie, adibide honetan zehazki, hark erakusleari, subjektu (@SUBJ) funtzioa esleitu zaio eta handian adjektiboari, adizlagunarena (@ADLG). Eta bi sintagma horiek osatzen dituzten gainerako hitzei, berriz, beren gobernatzaileak eskuinetara agertzen direla adierazten dituzten funtzio-etiketak, aipaturiko ikurrak eta guzti; hots, lehen sintagmako zinemako eta cowboy hitzei izenlagun (@IZLG>) eta kasu-markadunaren modifikatzaile (@KM>) funtzio-etiketak esleitu zaizkie, eta bigarren sintagmako bere eta etxe hitzei ere etiketa berak esleitu zaizkie.

Aipaturiko bi gramatika horiek Murriztapen Gramatika jarraituz idatzi diren 560 erregelek osatzen dituzte. Gramatika hauei buruzko zehaztasunak (Arriola, 2000 eta Aranzabe, 2008) tesi-lanetan ageri dira.

Dena den, kateak definitzea edo mugatzea ez da hain erraza izan literaturan zehar; hau da, etiketatze sintaktikoaren maila honetan, testuko kate bati esleitu beharreko etiketa zein den zehazteaz gain, aukera askoren artean katetzat zer hartuko den erabaki behar da, eta katetzat jotzen diren egiturak ez dira berak hizkuntza guztietan.

Oro har, adostasuna badago etiketatze sintaktikoan ezagutu behar diren kate sintaktikoak zein diren adierazteko garaian; esaterako, izen-sintagma eta postposizio-sintagma. Ezadostasun handiagoa dago, ordea, beste zenbait zatirekin: aditz-sintagma eta mendeko perpausak.

Dependentzia-analizatzailea

Dependentzia-analizatzailearen xedea esaldiak osatzen dituzten hitzen arteko dependentzia-erlazioak esplizitu egitea da; horretarako, analisi sintaktikoa bi urratsetan gauzatuko da. Lehen urratsean, esaldietako hitzei dependentzia-etiketa bana esleituko zaie Euskararako Dependentzia Gramatika Konputazionalean (EDGK-I) definitutako erregelen bitartez. Bigarren urratsean, gobernatzaile/mendeko erlazioan dauden hitzak zein diren zehaztuko da horretarako idatzi den EDGK-II gramatika baliatuta. Honen guztiaren emaitza, binakako dependentzia-erlazioak markatuz esaldi bakoitzeko sortzen den dependentzia-zuhaitza da.

Esaterako, ondorengo taulan, lau zutabetan adierazi den Zinemako cowboy hark bere etxe handian errezibitu zituen esaldiaren analisiak, analizatzaile sintaktikoaren irteera irudikatu nahi du; horrela bada, lehen zutabean, esaldia osatzen duten hitzak daude, esaldian duten hurrenkera lineala adieraziz zenbakien bitartez; bigarrenean, hitz bakoitzaren kategoria zehaztu da (izena (IZE), determinatzailea (DET), adjektiboa (ADJ), aditza (ADI) eta aditz laguntzailea (ADL)); hirugarrenean, lehen zutabeko hitz bakoitzaren gobernatzailea adierazi da esaldian duen hurrenkera markatuz, eta laugarrenean, hitz bakoitzari esleitu zaion dependentzia-etiketa idatzi da. Taulan ikus daitekeen moduan, dependentzia-etiketek aurretik handiago edo txikiago ikurra izango dute (</>), beren burua zein noranzkotan izango den adierazteko.

Dependentzia-analizatzaileak baliatu duen EDGK-I gramatika idazteko kate sintaktikoen bereizketa eta zuhaitz-bankua eraikitzeko oinarriak hartu dira kontuan; zehatzago esateko, puntu hauei erreparatu zaie:

  1. Testuingurua; hau da, dependentzia-erlazioan dauden bi elementuak (gobernatzailea eta mendekoa) zein testuingurutan agertzen diren.
  2. Hurrenkera edota posizioa; alegia, zein den bakoitzaren kokalekua esaldian.
  3. Printzipioa; hots, dependentzia-etiketak esleitzeko bete behar diren baldintzak.

Puntu horietan oinarrituta, printzipio linguistikoak ondorioztatu eta erregela gisa formalki adierazi dira Murriztapen Gramatikaren formalismoaren eredua jarraituz.

Bigarren urratsean aplikatzen den gramatika (EDGK-II) osatzeko, berriz, beste puntu hauek hartu dira oinarritzat:

  1. Aipatu berri ditugun printzipio linguistiko horiek.
  2. Esaldiko hitzei esleitzen zaizkien dependentzia-etiketak.
  3. Kategoria sintaktikoak; hots, analisi automatikorako Euskararen Datu Base Lexikalean zehaztu diren kategoriak (Aldezabal et al., 2001)

EDGK-II gramatika aplikatuz lortzen den irteera-analisian gobernatzailearen eta mendekoaren arteko lotura esplizitu egiten da modu honetara irudikatuz:

D-NCMOD (w2,w1)
D-NCSUBJ (w7,w2)
D-DETMOD (w2,w3)
D-NCMOD (w5,w4)
D-NCMOD (w7,w5)
D-NCMOD (w5,w6)
D-AUXMOD (w7,w8)

Analisi-irteeraren irakurketa eginez gero, D letraren bitartez dependentzia adierazten da; ondoren, mendekoari esleitu zaion dependentzia-etiketa (NCMOD, NCSUBJ…) dator eta azkenik, parentesi artean dependentzia-etiketa horren bitartez lotzen diren bi hitzak zein diren adierazten da, gobernatzaileari dagokion identifikadorea eta mendekoari dagokiona idatziz hurrenez hurren, (w2,w1) esaterako. Lotura horiek eginda, Dependentzia Gramatika atalean irudikatu den dependentzia-zuhaitza lortzen da.

Gramatika hauei buruzko zehaztasunak (Aranzabe, 2008) tesi-lanean ageri dira.

Datuetan oinarritutako analizatzaileak

Euskararen zuhaitz-bankua erabilita, posible da, lan handia egin gabe, analizatzaile sintaktikoak sortzea, Probabilistic Context Free Grammar (PCFG) eredu sinplea edo bere bertsio konplexuagoak (Berkeley parser edo Bikel-en parserra) aplikatuz. PCFGak TGGetan oinarritzen dira.

Euskararen zuhaitz-bankua erabilita sortu da dagoeneko dependentzietan oinarritutako analizatzaile bat, Maltparser, analizatzaile sintaktiko automatikoen sistema sortzailea erabiliz. Sistema hau probatu daiteke helbide honetan. Sistema honek, dependentzia-zuhaitzak dituen fitxategi bat hartuta (aurreko taularen formatuan), analizatzaile sintaktikoa lortu edo ikasiko du, treebank-eko informazioa erabiliz, ikasketa automatikoa eta probabilitateen bidez. Ondoren, perpausa berri bat ematen zaionean, sistemak dependentzia-zuhaitza eraikiko du ikasitako informazioa erabiliz.

— Egileak: Itziar Aduriz Maria Jesus Aranzabe Jose Mari Arriola Koldo Gojenola

Glosategia

Unitate aztergaia(Motza, Bestelakoa)

Sintaxiaren tratamendua (Ertaina, Espezifikoa)

Sintaxi osoa (Motza, Espezifikoa)

Ezaugarri egitura (Ertaina, Espezifikoa)

Erlazio sintaktikoen adierazpidea: osagai-egitura, mendekotasun-egitura

Analisi sintaktikorako (parsing) teknikak: (Ertaina, Espezifikoa)

top-down (Motza, Espezifikoa)
bottom-up (Motza, Espezifikoa)
Chart (Motza, Espezifikoa)
Testu inguru gabeko gramatikak (Context Free Grammar)(Ertaina, Espezifikoa)
Baterakuntza (Ertaina, Espezifikoa)
LFG (Motza, Espezifikoa)
PATR (Motza, Espezifikoa)
HPSG (Motza, Espezifikoa)
Sistema murriztatzaileak (Motza, Espezifikoa)
Islapen erregelak, mappings, mapaketa erregelak(Motza, Espezifikoa)

Etiketatzailea, Etiketatze sintaktikoa (Ertaina, Espezifikoa)

analizatzaile sintaktikoak (Ertaina, Espezifikoa)

lanaren aipamena nola egin...

Itziar Aduriz Maria Jesus Aranzabe Jose Mari Arriola Koldo Gojenola, "Sintaxia", Sareko Euskal Gramatika (SEG), www.ehu.eus/seg
ISBN: 978-84-693-9891-3