Erabiltzaile Tresnak


hizk:1:5

Semantika

Ordenagailuak perpausak ulertzea da semantika konputazionalaren helburua, eta horixe da lengoaia naturalaren prozesamenduan diharduten guztiek duten azken ametsa. Hizkuntza teknologiako aplikazio mota guztiek, itzulpen automatikoak zein informazio-erauzketarako sistema automatikoek esaterako, emaitza hobeak lortzen baitituzte esaldien esanahia kontuan hartuz gero.

Baina semantikaren tratamendua LNPko alderik zailena da, ez baitago ordenagailuan inplementa daitekeen esanahiaren teoria sendorik. Alde horretatik, Montague-ren gramatika izan da teoria semantiko inportanteena (1973). Teoria horren konposagarritasun-printzipioaren arabera posible da eraikitzea osagai sintaktiko baten errepresentazio semantikoa bere azpiosagaien errepresentazioak konbinatuz. Hala ere, bide luzea egin beharko da oraindik esanahiaren teoria orokor eta oso bat baliatu ahal izan arte.

Sintaxiaren informazioa unitatea hitza da (edo morfema), baina semantikako unitatea hitzen adierak dira. Hitz berak adiera bat baino gehiago edukitzen du. Adiera posibleen identifikazioa, formalizazioa eta haien arteko erlazioa semantikaren oinarri-oinarria da. Hizkuntza baten hitz adiera guztiak ontologia modura antolatzen dira, geroago sailkapen hori adiera-desanbiguazioan eta adiera horien propietateak modu trinkoan definitu ahal izateko. Wordnet baliabide lexiko-semantikoaren agerpena mugarri historikoa izan zen, ingeleserako ohiko hitz guztietarako adierak biltzen baitzituen eta gainera banaketa libre eskaintzen zuelako. Geroago beste hizkuntzetarako bertsioak ere definitu izan dira. EuskalWordnet baliabidea euskarazko hitz-adierak batu ditu, eta EuroWordnet proiektuaren barruan kokatuta dagoenez hitz-adierak ingelesez, espainieraz, katalanez eta euskaraz ikus daitezke.

LNPren historian zehar, une batzuetan pentsatu izan da analisi semantikoa problemarik gabe egin zitekeela. Adibidez, 60ko hamarkada izan zen une horietako bat, adimen artifizialaren hasierako une historiko ospetsuenetan. Orduan pentsatu zen testuen esanahia analizatu ahal izango zela bat ere ezagutza linguistikorik gabe. Gaur egun, aldiz, analisi semantikoaren zailtasunez jabetu dira LNPko arlokoak, eta badakite aukerak mugatuak direla. Egoera horretan analisi konputazionalean tratamendu praktiko bat nagusitzen da. Hau da, ahal dena egitea eskura dauden baliabideekin jokatuz. Hala ere, beti ez da horrelako planteamendu errealistarik izan.

Formalismo desberdinak definitu dira esaldien sintaxia eta semantika lantzeko, biak paraleloan landuz edo bata bestearen menpe. esaldi-zatiak interpretatzeko ahalmenarekin edo gabe

  • Klasikoki eta batez ere giro akademikoetan esaldi osoaren analisi sintaktiko osoa eta esaldiaren esanahi osoa lortu nahi izan da automatikoki.
  • Beste sistema batzuek esaldi osoak ulertu ordez, helburu xumeago bat dute: testuko zenbait gramatika-erlazio solte harrapatu eta interpretatu semantikoki.
  • Gramatika semantikoek ohiko testuinguru rik gabeko gramatikak erabiltzen dituzte, baina erregeletan osagai sintaktikoak eta semantikoak maila berean konbinatuz.
  • Patroi-ezagutzan oinarritzen diren sistemetan testu luzeetan osaketa oso zehatzak dituzten esaldiak edo elementu sintaktikoak bilatzen dituzte. Patroien bidez definitzen dituzte bilatu nahi dituzten egitura horiek. Egitura horietarako interpretazioa sakon egiten dute, baina beste esaldietarako ezer gutxi. Galderak erantzuteko sistemetan erabili ohi dira horrelako sistemak.
  • Semantikak gidatutako analisia egiten dituzten inplementazioetan, tresna sintaktiko partzialak semantikak behar dituen testu zatiak bilatzeko erabiltzen dira bakarrik. Adibidez: Zein da perpauseko aditza? Aditzak gobernatzen duen subjektuaren izena zein da?

Esaldi bat modu automatikoan prozesatu nahi dugunean, tratamendu semantikoaren helburua esaldiaren esanahia lortzea da, hau da, bere edukiaren errepresentazio kontzeptuala sortzea. Horretan, esaldiaren esanahia egitura formal baten bidez adierazi beharko da, eta horrelako adierazpideei esanahi-adierazpide deituko diegu. Ezagutza adierazteko modua fonologian, morfologian, eta sintaxian garrantzizko papera bazuen tratamendu semantikoan are garrantzitsuagoa da; semantikaren kasuan adierazpideak ezagutza linguistikoaz gain ezagutza ez‑linguistikoa ere landu behar delako, bi ezagutza mota bien arteko zubi-lana egin behar du semantikak, eguneroko jardueran hizkuntzaren bidez erabiltzen dugun munduari buruzko ezagutza errepresentatzea eta erabiltzea ezinbesteko baita gure hizkuntzako benetako esaldiak ulertzeko. Zenbait adierazpide definitu dira perpausen informazio semantikoa eta sintaktikoa modu integratuan adierazteko.

Hala ere, semantika konputazionala izeneko atal honetan analisi semantikoaz hitz egingo dugunean, era mugatuago batean erabiliko dugu, alegia, testuingurutik independente den esanahi‑adierazpideaz hitz egingo dugu. Baina, posible al da hitz egitea esaldiaren esanahiari buruz bere testuingurua kontuan hartu gabe? Ematen du badirela esanahi-aspektu batzuk testuingurutik independenteak direnak, hala nola, hitzen adiera desberdinak bereiztea (bai objektuetan, bai ekintza edo gertaeretan ere), edo nolakoa den esaldi barruko hitzen arteko eragina beren esanahiak elkarri murrizteko. Hemen, horretaz mintzatuko gara, hau da, testuingurutik (aurreko esaldiak edo hizketa-gaia) independente den esaldien esanahiaz arituko gara. Hurbilpen teorikoak behar dira helburu hori ganoraz lantzeko, eta orain arte egin den proposamen formalena James Allen-ek “Natural Language Understanding” liburuan proposatutakoa da. perpausen esanahia errepresentatzeko forma logikoa deitzen duena definitzen du bertan.

Semantikarako baliabideak eta tresnak


Oinarrizko kontzeptuak

Informazio semantikoa eta sintaktikoa batera integratuta

Informazio semantikoa sintaktikoarekin batera errepresentatzeko aukera nagusiak honako hauek ditugu:

Errepresentazio sintaktikoen gainean informazio semantikoa gehitzea

Oinarrian tratamendu sintaktiko osoa dagoenean sistemarik erabiliena da hau. Analisi sintaktikoan hitzak aukeratzen laguntzen duen informazio semantikoa esleitzean datza. Nagusiki, esleitzen den informazio semantikoa bi tipotakoa izaten da: izenek ikuspegi semantikotik deskribatzen laguntzen duten ezaugarri semantiko batzuk jasotzen dituzte eta aditzek (eta gainerako predikatuek) beren posizio argumentalak markatuak dituzte ezaugarri semantikoen bidez. Modu horretara, sistema sintaktikoek esaldietako hitzen esanahiaren gaineko nolabaiteko kontrola izan dezakete. Eta, beraz, hitzik egokiena hautatu kasu bakoitzean. Hurbilpen honen arazorik latzena hitzen semantika ezaugarri semantikoen bidez errepresentatzeko modu egokia ez egotean datza. Eginkizun hori ezinezkoa dela dirudi. Dena den, zenbait ezaugarri semantiko sinple (gizaki+/-, zehatza+/-, zenbakarria+/-, etab.) erabilgarri suertatzen dira interpretazio posibleen artean zein den egokia erabaki behar denean.

Sintaxiaren ondoko maila batean kokatzen den semantika

Hurbilpen honen estrategia maila sintaktikotik eratortzen den egitura-semantikoa maila sintaktikoaren ondoren sortzean datza. Semantikaren tratamendu hau, bereziki itzulpen automatikoaren aldetik sustatu da 70 eta 80ko hamarkadetan. Urte haietan hizkuntzaren prozesamendua gramatika sortzaile/transfor-matzailearen gertuko ikuspegitik abiatzen zen. Ikuspegi hori analisi semantikoa independenteki eta sintaxitik eratorrita egitean gauzatzen zen. Egun, sistema erreal gutxik jarraitzen diote estrategia horri, errepresentazio semantikoaren maila bera eta sintaxitik semantikarako proiekzioa zailak baitira modu koherente eta oso batez definitzen.

Errepresentazio sintaktikoan txertatzen den semantika

Gramatikaren baitan, kategoria konplexuetatik eratortzen den ikusmolde berriak modu berri bat ahalbidetzen du semantika hizkuntzaren prozesamenduan bideratzeko. Kontua da, deskribapen semantikoa ez dela sintaxitik aparte egingo, baizik eta, sintaxiak eta morfologiak osatzen duten deskribapen linguistikoaren parte bezala hartuko da. Hartara, semantika errepresentazio sintaktikoarekin integratzen da. Beraz, erlazio sintaktikoak kalkulatzerakoan, semantikoak ere kalkulatu egingo dira, eta bi alderdiak kontuan hartzen dituen errepresentazio bakar bat erdietsiko da. Estrategia hau darabilten prozesadore erreal gehienetan, errepresentazio semantikoa ezaugarri semantiko estrukturalenetatik abiatzen da: argumentu-harremanak, denbora eta aspektua, determinazioa… Aldiz, ia inoiz ez dira kontuan hartzen semantika lexikalaren atalean lantzen diren fenomenoak, hala nola, sinonimia, antonimia, hiperonimia eta meronimia, etab. Hala ere, semantikaren eta baterakuntza-formalismoen sintaxiaren arteko erabateko integrazioak egingarria dirudi. Oinarriak ezarrita daude eta integratze hori gauzatzea denbora-kontua da.

Edozein teoria semantikorekiko independentea den markatze semantikoa

Sintaxian zein semantikan tratamendu semantiko oso batek dituen zailtasunak kontuan harturik, zenbait ikertzailek konputazionalki kostu txikiagokoak diren hurbilpenak landu dituzte. Horrela, testuan bertan zuzen-zuzenean markatze semantikoak egiten dituzten sistema batzuk sortu dira. Anotazio semantiko horiek egiteko ez da aurretik maila altuko prozesamendu sintaktikorik behar. Kasu horietan, testuak markatzeko teknikak baliatzen dira, maiz oinarri estatistikokoak (desanbiguatzaile morfologiko batzuetan baliatzen direnen antzekoak). Bestalde, ezaugarri-sistema hauen ezaugarri orokorra da erabiltzen dituzten marka semantikoak oso baldintzatuta daudela tratatzen duten testu motagatik. Hau da, erabiltzen dituzten etiketa semantikoak kanpo semantiko partikular bateko testuentzat izango dira baliagarriak (adibidez, juridikoa). Baina, ezin izango lirateke erabili testu orokorrak edota bestelako kanpo semantiko batzuetakoak tratatzeko. Sistema hauek funtzio espezifiko batzuei erantzuten diete semantikaren tratamendu osoa eta koherentea egin ahal izateko sistemaren baten gabeziaren aurrean. Adibidez, testu zehatz batzuetan adierak desanbiguatzeko balia daitezke. Baina, ezin dira analisi semantikorako sistema gisa hartu, horretara iristeko behar adina orokortasunik ez dutelako. Badirudi prozesamendu- eta errepresentazio-sistema osoagoak eta semantika erabat kontuan hartzen dutenak sortzen diren neurrian, sistema mugatu hauek indarra galtzen joango direla. Azken finean, semantikaren tratamenduari dagokion arloa gehien aurreratu behar dutenetariko bat dugu. Gramatika sintaktikoak ezaugarri semantikoekin osatzeaz gain, gaur egungo lanen etorkizuna aipatu ditugun azken bi hurbilpenen ildotik doa: semantika-kategoria konplexudun gramatiketan integratzea eta teoria linguistikoetatik independente den testuen markatze semantikoa. Lehenengo hurbilpenak tratamendu konputazional orokorretarantz aurrera egiten laguntzen du; eta, bigarrengoak, tratamendu semantiko orokor bat ez dagoen bitartean, desanbiguazio semantikoaren inguruko lanak gauzatzen ditu.

lanaren aipamena nola egin...

Euskara Institutua, EHU, "Semantika", Sareko Euskal Gramatika (SEG), www.ehu.eus/seg
ISBN: 978-84-693-9891-3