Erabiltzaile Tresnak


hizk:1:5:3

Informazio semantikoa eta sintaktikoa batera landu

Informazio semantikoa sintaktikoarekin batera lantzeko estrategia nagusiak honako hauek ditugu:

Gramatika erlazioak

Sistema hauetan analizatzaile sintaktikoak ez ditu ematen egituraren zehaztapen guztiak, semantikarako inportanteak diren ezaugarriak baino ez ditu ematen. Erlazio hauei gramatika-erlazio edo menderakuntza gramatikalak esaten zaie. Subjektu, objektu logiko, zehar-objektu eta abarren erlazioak erlazio gramatikalen artean kokatzen dira. Erlazio bakoitza errepresentatzeko hirukote-egitura aukeratu da. Formatua <aldagaia erlazioa balioa> da. Interpretatzaile semantikoak esaldiaren interpretazioa lortuko du dependentzia-erlazio hauetan oinarrituz. Analisitik ateratzen den hirukotea erregela bateko ereduarekin bat datorrenean, dagokion forma logikoaren zatia sortzen da, eta bukaeran zati guztiak konbinatzen dira formula logiko bat lortzeko.

Gramatika semantikoak

Interpretazio semantikoa aplikazio konkretu baterako egin nahi bada, badira moduak analisi sintaktiko eta semantikoak eraginkorragoak izan daitezen. Eraginkortasun hori anbiguotasunaren tratamenduaren sinplifikazioan oinarritzen da. Hitzak testuinguru konkretuetan ager daitezkeen ideiaz baliatzen dira eta, beraz, hitzaren hainbat interpretazio ez dute kontuan hartu behar. Gure adibidean, bezeroei ematen zaien hegaldiei buruzko informazioarekin du zerikusia. Abioei buruzko informazioa datu-base batean dago eta datu-baseari galderak eginez lortzen da. Datu-basean galdeketetan sortzen den lengoaia aztertu behar da egitura sintaktiko eta esanahi tipikoak lortuz. Egitura sintaktiko batzuk testuinguru semantiko konkretuetan azalduko dira; kasu hauetan, erregela sintaktikoetan aspektu sintaktikoak, analisi prozesuan lagunduko duten ezaugarri semantiko batzuen bitartez ordezka daitezke eta, horrela, sinplifikatuko da prozesu osoa. Gure adibide honetan, izen-sintagmek honako egitura dute:

  • The flight to Chicago
  • The 8 o'clock flight
  • The first flight out
  • Flight 457 to Chicago

Izen-sintagma hauek analizatzeko gramatika honako hau izan daiteke:

  • NP → DET CNP (the flight)
  • CNP → N (flight)
  • CNP → CNP PP (flight to Chicago)
  • CNP → N PART (flight out)
  • CNP → PRE-MOD CNP (8 o'clock flight)
  • NP → N NUMB (flight 457)

Erregela hauekin forma ez-zuzenak ere lor daitezke, adibidez: *the city to Chicago *the 8 o'clock city *the first city out *city 567 Hori saihesteko informazio semantikoa erants dakieke erregelei. Erregela hauetan propietate semantikoa duten kategoria lexiko berriak azalduko dira. Adibidez FLIGHT‑N (hegaldi esanahiarekin zerikusia duten izenak). Hau dena kontuan hartuta aurreko erregelak berridatz daitezke:

  • FLIGHT-NP → DET FLIGHT-CNP (the flight)
  • FLIGHT-CNP → FLIGHT-N (flight)
  • FLIGHT-CNP → FLIGHT-CNP FLIGHT-DEST (flight to Chicago)
  • FLIGHT-CNP → FLIGHT-CNP FLIGHT-SOURCE(flight from Chicago)
  • FLIGHT-CNP → FLIGHT-N FLIGHT-PART (flight out)
  • FLIGHT-CNP → FLIGHT-PRE-MOD FLIGHT-CNP(8 o'clock flight)
  • FLIGHT-NP → FLIGHT-N NUMB (flight 457)
  • CITY-NP → CITY-NAME (Chicago)
  • CITY-NP → DET CITY-CNP (the city)
  • CITY-CNP → CITY-N (city)
  • CITY-CNP→ CITY-MOD CITY-CNP CITY-MOD-ARG(nearest city to Dallas)

Faltako lirateke beste erregela batzuk:

  • FLIGHT-DEST → to CITY-NP
  • FLIGHT-DEST → for CITY-NP

Goi-mailako egitura sintaktikoak ere egongo dira:

  • TIME-QUERY → When does FLIGHT-NP FLIGHT-VP ?

Laburbilduz, kategoria sintaktiko eta semantikoen arabera adierazten diren gramatikei gramatika semantikoak deritze. Ez dago oso garbi non dagoen gramatika sintaktikoen eta semantikoen arteko muga. Normalean, gramatika semantikoak erregela askoko gramatikak dira baina erregelak eraikitzeko prozesua motzagoa da. Aplikazio konkretuetarako egokiak, baina domeinua aldatuz gero, gramatika osoa berreraiki behar da.

Patroi-parekatzea

Helburu mugatuko hainbat domeinutan, probetxagarria gerta daiteke domeinuaren egitura tipikoak baliatzea interpretazio semantikoaren prozesuan. Egunkarietan azaltzen diren negozio-eragiketei buruzko laburpenak aztertuz gero, horri buruz ematen diren egunkarietako berri guztiek eskema finko bati jarraitzen diotela ikus daiteke: beti azalduko da erosten duena, erosi dena, zer preziotan erosi den, nori erosi dioten, eta abar. Eredu sinple batzuk definitzea da teknika honen gakoa. Eredu sinple horiek domeinuko informazio zatiak adieraziko dituzte. Informazio zati horien bitartez osatuko da tarea errepresentatuko duen eskema orokorra. Hego Amerikako eraso terroristei buruzko domeinuaren inguruan laburpenak egitea bada aplikazioko tarea ondoan azaltzen den eredua izan daiteke egokia.

TERRORIST INCIDENT
DATE                             date   
LOCATION                         city/state/country
TYPE                             e.g. bombing
STAGE of EXECUTION               e.g. accomplished, planned
INSTRUMENT                       e.g. bomb, gun
PERPRETATOR NAME                 e.g. FMLN
PHYSICAL TARGET                  e.g. car, house
HUMAN TARGET                     e.g. president
NATIONALITY TARGET               e.g. San Salvador
EFFECT                           e.g. no injury      

Ideia nagusia hau da: sarrerako testuan ereduak definitu, non eskema orokorreko atributuak identifikatuko diren. Adibidez: take aditza, gizakia den zerbait deskribatzen duen sintagma, eta hostage hitza agertzeak hitz-sekuentzia batean, TERRORIST-INCIDENT eskemako HUMAN-TARGET atributuaren balioa adierazten du. Hori guztia eredu honen bitartez adierazten da:

take  <HUMAN>  hostage         
	(TERRORIST-INCIDENT  HUMAN-TARGET  1)

lan horretan analizatzaile partzialak egokiak dira. Analizatzaile orokorrak oso garestiak baitira eta gainera ez da oso errealista edozein esaldi onartuko duen analizatzailea egin daitekeela pentsatzea. Analizatzaile partzialak “puskak” hartuko ditu: izen-sintagmak eta aditz-sintagmak; analizatzaileak preposizioak eta loturazko partikulak ere bereiz ditzake. Horretaz gain, zatien mota semantikoaren informazioa behar du; normalean zatiaren gunetik hartuko dira. Ad. : Guerrillas attacked Merino's home in San Salvador five days ago with explosives. Erabilitako lexikoa:

Ago
Attacked
Days
Explosives
Five
Guerrillas
Home 
In
Merino
San-Salvador
with
(AGO)
(V VFORM past TYPE attack)
(DATEUNIT)
(N TYPE WEAPON) 
(NUMB)
(N TYPE HUMAN-GROUP)
(N TYPE LOC)
(P TYPE IN)
(NAME TYPE PERSON)
(NAME TYPE LOC)
(P TYPE WITH)

Analizatzaileak lortuko dituen zatiak:

(NG Guerrillas TYPE HUMAN-GROUP)
(VG attacked TYPE ATTACK VFORM PAST)
(NG Merino's home TYPE LOC)
(P in TYPE in)
(NG San-Salvador TYPE LOC)
(NG (BEFORE-NOW 5 days) TYPE DATEUNIT)
(P with TYPE WITH)
(NG explosives (TYPE WEAPON))

Eredu sinple batzuk:

P1     <HUMAN> <ATTACK> <LOC>(INCIDENT ATTACK
                                      PERPETRATOR NAME 1
                                      PHYSICAL TARGET 2)
P2     <IN> <LOC>(LOCATION 2)
P3    <DATE>(DATE 1)
P4    <WITH> <WEAPON>(INSTRUMENT 2)

Lortzen den analisia:

 (INCIDENT ATTACK
       PERPETRATOR NAME Guerrillas
       PHYSICAL TARGET Merino's home)
 (LOCATION San Salvador)
  (DATE five days ago)
 (INSTRUMENT explosives)

Hau adibide bat besterik ez da izan. Gauzak konplexuagoak egiten diren heinean, eskema orokorrak eta ereduak konplexu bihurtuko dira.

lanaren aipamena nola egin...

Euskara Institutua, EHU, "Informazio semantikoa eta sintaktikoa batera landu", Sareko Euskal Gramatika (SEG), www.ehu.eus/seg
ISBN: 978-84-693-9891-3