Erabiltzaile Tresnak


hizk:1:9:2

Testu-masa handiak tratatzeko edo kudeatzeko aplikazioak

Informazioa berreskuratzea izan da ohiko arlo bat informatikaren garapenaren hasieratik. Konputagailuek informazio kopuru handiak biltegiratzea posible egiten dutenez, informazio hori berreskuratzea modu zehatz, eroso eta eraginkorrean izan da beti aztergai garrantzitsua. Informazioaren berreskurapenaren (Information Retrieval, IR) kontzeptua testu-masa handien biltegiratze/berreskuratzearekin lotu ohi da informatikaren munduan. Datu-base dokumentalak izan dira arlo honetako aplikazio garrantzitsuenak, eta bertan lantzen dira gaian gakoa diren bi urratsak: dokumentuen indexazioa eta ondorengo bilaketa.

Internet fenomenoak bultzatu egin du arlo honen garapena, testu digitalak izugarri ugaldu direlako. IRren ohiko aplikazioez gain (testu legalak, medikuntzakoak, dokumentazio-zentroak, …) Internet/Intranet eremuko aplikazio garrantzitsuenak kokatzen dira arlo honetan: google moduko bilatzaileak eta yahoo moduko direktorioak.

Duela gutxi arte, tresnen abiadura motela zela-eta, hizkuntza-ingeniaritza ez zen asko erabiltzen arlo honen garapenean. Dena den, tresnak hobetu diren heinean eta dokumentu digitalen eleaniztasuna areagotzearekin batera, tresna linguistikoen erabilpena garrantzia hartzen joan da.

Beste aldetik, Interneten dagoen informazioaren izaera desegituratuak eta dokumentuen digitalizazio prozesu azkarrak eraman dute pentsatzera dokumentuetan dagoen informazioa automatikoki egitura litekeela, eta hortik dator informazioaren erauzketa automatikoaren ( Information Extraction, IE) garapena: testuetan dagoen informaziotik datu-baseak modu automatikoan edo erdiautomatikoan sortzea oso interesgarria izan daiteke hainbat erabilpenetarako. Lantegi honetan hizkuntza-teknologiek garatutako tresnek funtsezko rola jokatzen dute.

Oinarrizko funtzio horiez gain, funtsa horren aldaerak adierazten dituzten termino berriak joan dira sortzen eremu hauen barruan. Hona hemen bibliografian azaltzen diren hainbat termino interesgarri:

  • sailkapen semantikoa edo kategorizazioa: testu bat emanda bere kategoria edo gaia asmatzea. Hauxe da yahoo moduko direktorioetan egiten dena, IR sistema batekin konbinatua. IEren ataza gisa ikus daiteke eta modu automatikoan edo semiautomatikoan egin daiteke, baina, sailkapena zabala eta sakona baldin bada (kategoria asko), erabat automatikoak ez du emaitza onik lortzen.
  • iragaztea (filtering): dinamikoki jasotzen den informazio ez-interesgarria baztertzean datza. Indar handia hartu du posta elektronikoarekin, spam edo antzeko mezuak automatikoki baztertzeko aukera eman dezakeelako. Kategorizazioaren kasu partikular gisa ere ikus daiteke.
  • bideratzea (routing): informazioa pertsona edo agente desberdinen artean banatzeko teknika multzoa. Sailkapen mota bat da azken finean, baina informazioaren ezaugarriez gain agenteena ere kontuan hartu behar dira. Kazetaritza alorreko adibide pare bat jar daiteke: egunkari batean agentzien berrien banaketa kazetarien artean, edo web bidezko berrien pertsonalizazioa. Batzuetan bideratzea eta iragaztea sinonimotzat hartzen dira.
  • laburpen automatikoa (summarization): Dokumentu baten laburpena lortzea testuan oinarrituta. Erauzketaren kasu bat bezala ikus daiteke baina berezia da, datu-base bat osatu beharrean testuaren ordezkari labur bat lortu nahi baita.
  • multzokatzea (clustering). Arlo askotan erabiltzen den teknika-multzo honek antzekotasuna duten dokumentuak erlazionatzea du helburutzat, berreskuratzea ahaltsuagoa egiteko asmoz askotan. Erauzketaren 2. fasea izaten da batzuetan, multzo berean sartzen baitira erauzitako ezaugarriren bat komunean duten dokumentuak. Terminologia erauzketa automatikoan adibidez, clustering egin ohi da bigarren fase batean, terminoen hierarkia bat sortzearren erauzitako terminoetatik abiatuta.
  • testuen gaineko meatzea (text mining). Informatikaren munduan azken urteetan indarra hartu duen arloa dugu data mining izenekoa. Datu-masa handietatik ondorioak ateratzea da funtsa, eta aplikazio asko du: maileguen arriskuak, gaixotasunen arrisku-taldeak, … Datu horiek testuak direnean text mining terminoa erabiltzen da eta datuak Internetetik hartzen direnean web mining. Guztietan erabiltzen diren metodoak antzekoak dira, baina testuekin arazo bat dago: ezaugarriak edo adierazleak asko dira eta ez daude agerian. Medikuntzan edo finantzatan ezaugarri argiak daude, diru-mugimenduak esaterako, eta gehienetan jasota. Text mining eta informazioaren erauzketa automatikoa sinonimotzat har daitezke.

Beste aldetik harantzago doan helburu duten proposamen berriak sortzen ari dira azken urteetan, arrakastatsuenak bi hauek izanik:

  • Informazioaren berreskurapen eleanitzak (Cross Language Information Retrieval, CLIR) duen helburua galderak eta erantzunak hizkuntza desberdinetan eman ahal izatea da. Horretarako geroago azalduko diren zenbait teknika erabiltzen dira, baina tratamendu linguistikoa ezinbestekoa bihurtzen da kasu honetan.
  • Galderak erantzutea (Question Answering, QA) izeneko paradigma berrian IRren mugak gainditu nahi dira, eta horretarako ez dira jatorrizko dokumentuak itzultzen, dokumentuetatik erauzitako erantzunak baizik. Beraz, IR eta IE konbinatu egiten da. Momentuz emaitza apalak lortu arren ikerlerro garrantzitsua da gaur egun.

Informazioaren berreskurapena, IR

Oinarri teknologikoa

Erabiltzen diren teknika konputazionalak asko aldatzen dira sistema batetik bestera. Orokorrean esan daiteke erauzketan kalkulu-karga handitzen dela eta prozedurak konplexuak direla, berreskurapenean berriz, prozesaketa sinplea izan ohi da baina edukiera trinkotzeko eta bilaketa azkartzeko teknikak dira funtsezkoak.

Erabiltzen diren teknikak bi multzotan banatuko ditugu:

  • linguistikoak: ezagumendu linguistiko klasikoan oinarritzen dira, beraz, datu sinbolikoetan (morfologikoak, sintaktikoak, semantikoak, etab.) eta erregeletan oinarrituko dira. Teknika hauetaz arituko dira Hiztek-eko modulu gehienak.
  • estatistikoak eta induktiboak: ebatzitako kasu batzuetatik abiatuta erlazioak inferitzen dira, eta kasu berriak erabakitzeko prest da sistema. Estatistikoetan inferentzia zuzena den bitartean (probabilitate-taulatan oinarritzen dira), induktiboetan inferentzia egiteko metodoak oso konplexuak izan daitezke. Azken hauek ikasketa automatikoaren (Machine Learning, ML) paradigman oinarritzen dira eta ikasitakoa zuzenean interpretagarria bada sinbolikoa esaten zaio (adib. erabaki-zuhaitzak). Gehienetan ebatzitako kasuak behar direnez metodo hauei gainbegiratuak esaten zaizkie. Kasu batzuetan giza interbentziorik gabeko datuetatik ikas daiteke, metodo horiek ez-gainbegiratuak deitzen zaielarik.

Tratamendu mota biak konbina daitezke eta askotan tratamendu linguistikoen ondoren aplikatzen dira bestelakoak.

Esan bezala IR arloan kalkulu sinple eta azkarrak baino ezin dira egin, datu-kopurua dela eta, beraz, tratamendu linguistiko sinpleenak (morfologia eta lematizazioa gehienbat) eta estatistiko hutsak erabili ohi dira. Eztabaidagai da NLP edo hizkuntza-ingeniaritzak IRri egin diezaiokeen ekarpena, baina orokorrean ondorioa da doitasun irabazpenak ez duela konpentsatzen abiaduraren galera.

IE arloan berriz, informazioa erauzi egin behar da, eta horretarako tresna linguistikoak eta induktiboak konbinatu behar dira sistema konplexu samarren beharra sortuz. Beraz, hizkuntza-ingeniaritzako tresnak ezinbestekoak arlo honetan baina beti abiadurari jaramon eginez, askotan testu-masa handiak prozesatu egin behar baitira.

Osagaiak

IR sistema batean funtsezko hiru osagai daude:

  • dokumentuen biltegiratzea: bilaketa azkarrak egitea oso inportantea denez dokumentuen errepresentazioa (adierazpidea ere esango zaio dokumentu honetan) aldatu beharko da, horretarako indexazio-prozesu bati ekiteko beharra sortuz.
    Ohikoa da dokumentuetatik abiatuta alderantzizko indize bat sortzea, geroago eguneratuko dena dokumentu gehiagorekin. Alderantzizko esaten zaio hitzetatik edo terminoetatik abiatuta jatorrizko dokumentuak lortzeko aukera ematen dutelako.
  • galderen sintaxia eta errepresentazioa: galderak egiteko formatu bat definitu eta gero (bilatzaileetako bilaketa aurreratuan azaldu ohi da), IR sistemetan galdera bakoitzeko errepresentazioa burutuko da, dokumentuen errepresentazio-moduarekin lotuta egongo dena, ondoren dokumentuen errepresentazioarekin konparatu ahal izateko.
  • bilaketa: galderaren eta dokumentuen arteko alderatze bat burutuko da galderarekiko dokumentu esanguratsuak (relevant documents) lortzeko asmoz. Alderatze-funtzio edo antzekotasun-funtzio bat izango da horretarako gakoa, dokumentu eta galderaren arteko hurbiltasun-portzentajea ematen baitu funtzio honek. Alderatze-funtzioak eta giza epaiak emaitza bera eman beharko lukete kasu onenean, baina hau oso zaila da, batez ere kontuan hartzen badugu pertsonen artean ados jartzea ere ezinezkoa dela halako erabaki gehienetan.

Bilatzaileak

Arlo hauetan izan duen eragina erabatekoa izan delako eta aplikazio askotako iturburua izateagatik, Weben dagoen informazioaren izaerari buruzko aipamen batzuk datoz ondoren.

Informazioa desegituratua da Web-en dagoena, eta inolako kontrolik ez dagoenez hizkuntzaren kalitatearen aldetik oso aldakorra. Dena den, oso interesgarria da informazio iturri gisa (corpusak behar ditugunean modu azkarrena da eta kopuru aldetik bakarra izan daiteke) eta baita proiektuen helburu gisa ere, bere izaera desegituratu horrengatik tresnen beharra agerikoa baita. Bilatzaileen buruzko ezaugarriez eta estaldurez jakiteko web-gune hau kontsultatu daiteke: www.notess.com/search.

Datu orokor batzuk eman daitezke:

  • bilatzaileetan jasotzen dena nekez iristen da %50era
  • %70 inguruan ingelesez dago baina beste hizkuntzen portzentajea gora doa
  • galdera gehienetan gehienez hiru hitz idazten dira
  • erabiltzaileak lehen orrian ematen diren emaitzak baino ez ohi dute aztertzen

Hiru osagai nagusi ditu: robota, indexatzailea eta bilatzailea

  • Robotak sarea (edo fitxategi-sistema) formatu zehatzetako testuen bila (txt, html, pdf, doc, rtf, …) usnatzen du eta fitxategi interesgarriak hautatzen ditu.
  • Indexatzailea alderantzizko indizeak sortzeko modulua da. Hitzen arabera edo lemaren arabera lan egin dezake. Gehienetan sasilemetan oinarritzen dira (ikus stemmer)
  • Bilaketa-modulua: erabiltzailearekiko elkarrizketa eta galderatik abiatuta indizeen gainean arakatzea da modulu honen zeregin nagusia.

PageRank

Algoritmo honen bitartez lortzen dira galdera batekiko zeintzuk diren dokumentu esanguratsuenak Googleko fundatzaileak diren Brin eta Page diseinatu zuten Stanford Unibertxitatean. Dena den, aldaketa anitz izan du, batez ere hainbat ahulezi konpontzeko, hainbat enpresa dedikatu baitira trikimailuen bitartez bezeroen webguneak igotzen ordenatze-emaitzetan.

Oinarrizko algoritmoa ulertzeko estekekin lotutako bi termino landu behar dira aurretik:

  • in-link: orri batera iristen diren estekak
  • out-link: orri batetik abiatzen diren estekak

Orokorrean esan daiteke orri baten pisua in-linken pisua dela, baina bakoitzaren pisua kalkulatzeko bere kalitatea kontuan hartzen da. Beraz, goian geratzeko esteka asko eduki behar dira edo kalitate handiko hainbeste.

Euskaraz hainbat tresna sortu dira arlo honetan: Elebila, Corpeus

Informazioaren erauzketa

IEren helburua entitate, erlazio edota gertaerei buruzko informazioa automatikoki inferitzea da, normalean domeinu mugatu bateko dokumentuen artean. Hau da, datu-base baten erregistroak osatu nahi dira dokumentu digital batzuetatik abiatuta.

IRrekin dauden aldaketa nabarmenenak hauek dira: prozesaketa konplexuagoa eta domeinuan edo azpilengoaian espezializatua, emaitza onak lortu ahal izateko behintzat. Gainera, hizkuntza-teknologien aplikazioa interesgarriagoa da.

IE sistema konplexuetan jarraitu ohi diren urratsak honako hauek dira: iragazketa, morfologia eta etiketatzea, entitateen erauzketa, azaleko sintaxia, patroien gauzatzea, inferentzia eta txantiloien betetzea. Sistema sinpleetan urrats guztiak ez dira beharrezkoak.

Informazioa erauzteko Erauzterm daukagu euskaraz.

Bestelakoak

CLIR

Informazioaren berreskurapen eleanitzeko sistemetan (Cross Language Information Retrieval, CLIR) galderak hainbat hizkuntzatan egin daitezke, emaitza hizkuntza desberdinetan jasoz edo itzulpen automatikoaren bidez hautatakoan.

Hizkuntza ingeniaritza funtsezkoa izango da, hizkuntzaren ezagutza, hiztegi eleanitzak eta itzulpen-sistemak funtsezko elementuak izaten baitira. Orokorrean galderen itzulpena da gehien erabiltzen den eredua (dena den testuingurua txikia izan ohi denez zaila da), baina dokumentuen itzulpena edo dokumentuen errepresentazio neutroa (Wordnet erabiliz adib.) izan daitezke beste aukera batzuk (abiadurari begira motelak azken biak).

Itzulpenaren kalitatea handitu ahala doitasuna handituko da estalduraren galerarik gabe. Kalitate txarreko muturrean hitzez hitzezko kontsulta hiztegietan legoke, beste muturrean itzulpen automatiko sistema osoen aplikazioa (erregelen bidez, itzulpen-memorien bidez edo modu konbinatuan) eta tartean itzulpen partzialen aukera. Kalitate oneko sistemak aplikatzeko arazo nagusia eraginkortasunarena da.

Sistema hauen arkitekturan funtsezko osagaiak hiru dira:

  • galderaren itzulpena
  • IR sistema eleanitza
  • dokumentuen itzulpena

Azken elementua hautazkoa da, sistemaren espezifikazioen arabera posible baita erabiltzaileari dokumentu eleanitzak itzultzea.

QA

Question Answering (Galdera-erantzun sistemak) izeneko sistemen oinarria pasarteen IR sistemak badira ere, bi ezaugarri nagusi dute IR sistema klasikoekiko: NLP tresnen erabilpen ezinbestekoa eta galderen tipifikazioa. NLP aldetik azaleko sintaxia, galderen analisi sakona eta erantzunaren egituraren eraikuntza ezinbesteko elementuak dira. Ezaugarri horiengatik eta korrenferentzia zein anaforaren tratamenduaren beharra izateagatik IE sistemetatik gertu daude.

IR sistemetan bezala bi urrats nagusi daude:

  • indexatzea
  • kontsultari dagokion emaitza bilatzea.

Indexatzean unitatea laburtzen da eta pasarte izeneko unitatea aukeratzen da. Sistemaren arabera unitate hori desberdina da, paragrafoa, esaldia edo luzera finkoko testu-zatia. Indexatzean ez da analisi linguistiko sakona burutzen, baina pasartea unitate egokia izan behar da galderari erantzutean analisi sakona egin ahal izateko. Pasarteak sailkatu egiten dira gaiaz zein estiloaz (pertsonala, informatiboa, iritzia, …).

Kontsulten tratamendua, berriz, are konplexuagoa da eta urratask puntu hauetan laburbil daitezke:

  • galderaren analisia: oso galdera desberdinak egon daitezke: Nork/Nori/Zer/Non, Zenbat, Nola (ia-ia edozer), … Horren arabera erantzun-mota ondoriozta daiteke.
  • erantzunaren egitura sortzea
  • galderaren terminoen zabalkuntza lexiko-semantikoa
  • hainbat terminoren normalizazioa
  • pasarteen bilaketa eta selekzioa erantzun-motaren arabera
  • hautatutako pasarteen analisi sakona
  • erantzunaren eraikuntza, zenbaitetan hainbat inferentzia eta kalkulu egin ondoren

Euskarazko galdera-erantzun sistema bat Ihardetsi da.

lanaren aipamena nola egin...

Euskara Institutua, EHU, "Testu-masa handiak tratatzeko edo kudeatzeko aplikazioak", Sareko Euskal Gramatika (SEG), www.ehu.eus/seg
ISBN: 978-84-693-9891-3