Bilaketa aurreratua

Ogi apurrak

Lexikoa Atzo eta Gaur (LAG)

[Kontsultara itzuli]

 

Lexikoa, Atzo eta Gaur (LAG)

 

Hemen aurkezten den Lexiko honen xedea hitz zerrendan bildutako sarrera bakoitzaren erabilera aztertzea da. Erabilera historian zehar, eta erabilera gaur egun. Hortaz, konparazio bat egiten da lexiko honetan, ikusteko, azken batean, zein den hitz edo sarrera bakoitzaren joera: delako hitz hau lehen baino gehiago erabiltzen da gaur egun? Lehen baino gutxiago? Lehen bezala?

Konparazioak egiteko bi iturri nagusi erabili dira: batetik, historiari dagokionez, Orotariko Euskal Hiztegiak (www.euskaltzaindia.net/oeh, OEH hemendik aurrera) ematen duen informazioa hartu da kontuan. Erabilera sinkroniko edo egungorako, berriz, Ereduzko Prosa Gaur dago (www.ehu.es/euskara-orria/euskara/ereduzkoa, EPG hemendik aurrera), 2000-2006 urte bitarteko 25 milioi testu-hitzetatik gorako corpusa biltzen duena. Corpus horren gainean osatua dago HBEP (Hiztegi Batua Euskal Prosan, www.ehu.es/ehg), EGPren lexiko zerrenda bezala defini daitekeena. Azken batean, eta guri interesatzen zaigun alderditik, egungo lexiko erabileraren maiztasun eta estatistika datutegi aski osatua eskaintzen diguna. Lehenbizikoak, OEH-k, tradizioa biltzen du, hasieratik batasuna abian jarri zen uneraino, 1970. urteraino, gutxi gorabehera. Bigarrenak gaurko prosa hartzen du kontuan, bai liburuetan ageri dena, eta bai prentsan erabiltzen dena.

Helburua, beraz, batak eta besteak ematen dizkiguten datuak konparatzea da, lexikoaren eboluzioa erabileraren bitartez neurtuz. Jakina denez, hizkuntzak ez dira zer estatiko batzuk, denborarekin eboluzionatu egiten dute, aldatu egiten dira, eta lexikoa da transformazio hori neurtzeko modu esanguratsuetako bat.

Eboluzioa kontuan izateko, tradizioari dagokionez, bi modutara aurkezten da informazio hau:

  • Tradizioa hasieratik XIX. mendea bukatu arte: OEH19 deitu dugu hau.
  • Tradizioa hasieratik batasuna hasi zen arte: OEH deitu dugu.

Hitzen erabilerari buruzko informazioa 0-10erainoko eskala baten bitartez aurkezten da, eta koloreak ere erabiltzen dira, geziekin batera.

Informazioa honela dago antolatua. Jo dezagun, kasurako, "mamu" sarrera. Jakin nahi dugu hitz horren erabiltzeko joera zein den. Hitzean klikatuz, hau ageri da:

Horrek esan nahi du hitz hau gaur egun tradizioan baino pixka bat gehiago erabiltzen dela. Geziak gorantz egiten du, bi kasuetan: bai XIX. mendea bukatu arte ("2", 0-10eko eskalan), eta bai XX. mendea ere kontuan hartuz ("1", 0-10ko eskalan). Zenbaki hori handiagoa balitz, 6koa, demagun, horrek esan nahiko luke askoz ere gehiago erabiltzen dela gaur egun, lehen baino. Hori gertatzen da, esaterako, "ebaketa" hitzarekin:

Ikusten denez, hitz hori tradizioan askoz ere gutxiago ageri da: egungo erabilerak 5 hartzen du eskala horretan XIX. mende bukaeraraino iristen den tradizioarekin konparatuz, eta 2, berriz, XX. mendekoa ere barnean sartuz. Horrek esan nahi du XX. mendean gehiago erabiltzen zela aurreko mendeetan baino, eta orain are gehiago erabiltzen dela XX. mendean baino.

"Baldintzatu" hitza erabiltzeko joera aski berria da, ondoan ikusten denez:

Eskuin aldeko zutabetan ageri da zenbat idazlek edo iturburuk ("autoritateak") erabiltzen duten hitza.

Bilaketaren formularioan posible da autoritateez gain adibide edo agerpen kopurua ("adibideak") ere aintzat hartzea, informazioa handituz horrela. Gerta daiteke sarrera bat askotan agertzea, adibide anitz agertzea ("agerpenak"), baina erabiltzaile gutxi izatea ("autoritate" gutxi, alegia). Edo, alderantziz, hitz batek nahiko erabiltzaile izatea, baina ez agertzea horrenbestetan. Hona hemen adibide bat:

Informazio bera da hau, baina hemen idazle kopuruak eta adibideak hartzen dira kontuan informazio bera emateko orduan. Ikusten denez, bai idazleak, bai adibideak kontuan harturik, "poz eman" sarreraren erabilera joera beherantz doa.

Orain arte egindako aurkezpen laburtu honekin uler daiteke informazioaren funtsa. Hemendik aurrera, informazio hau eskuratzeko erabili den prozedura azalduko da.

 

Corpusetan ageri den informazioa nola bateratu den,
datuak erkatzeko modukoak izan daitezen

OEH eta EPG oso iturburu desberdinak dira. Biek corpusa oinarri badute ere, EPG corpusa da, testu bilduma, baina OEH hiztegia da, sarreretan adibide ugari ageri baldin bada ere. Baina izaera diferenteko iturburuak dira. Lehenak datu estatistikoak eskaintzen ditu (HBEPren bitartez), baina OEHk ez.

Adibideen edo autoritate-aipamenen kopuru absolutuak erabat desberdinak dira, iturri batean eta bestean. Hori berdintzeko, eta nolabait ere datuak erkagarri bihurtzeko, balore guztien eskala erlatiboa sortzea erabaki da, 0tik 10erakoa. Iturburu bakoitzaren kopuru absolutuak balore erlatibo horietara bildu dira.

Lehen lana, beraz, OEHtik datu estatistikoak erauztea eta sintetizatzea izan da. Horretarako:

  • Sarrera bakoitzeko adibideak detektatu eta bakartu dira: Adibidea zer den erabakitzeko orduan irizpide murriztailea erabili dugu, eta testuetako lekukotasunak bakarrik hartu dira aintzat. OEHn ageri diren beste hiztegi batzuetako adibideak eta autoritateak, hortaz, albo batera utzi dira. Adibide bakoitza bere autoritateari atxiki zaio.
  • Azpisarrerei izaera autonomoa eman zaie: «gaurdanik» OEHn «gaur» nagusiaren azpisarrera gisa ageri da, «gaur arte» edo «gaurtik» bezala. Hemen denak lema independentetzat hartu dira. Halaber, ondorioz, azpisarreren adibideak eta autoritateak ez dira sarrera nagusiarenak bezala kontabilizatzen, azpisarrerarenak bezala baizik.
  • XX. mendeko adibideak eta autoritateak bereizi dira: autoritateak banaka markatuta, bereizi egin dira XX. mendekoak eta ordura bitartekoak:
    • autoritateak denera: 781
    • XX. mendekoak soilik: 378
    Ondorioz, azpicorpus berezitua sortu da, OEHko XIX. mende amaieraino bitartekoa. Corpus honi OEH19 izena eman zaio. Beraz, alderaketa guztiak bikoitzak izango dira: OEH19—>EPG eta OEH—>EPG. OEH19—>EPG agertzen delarik hitz edo sarrera baten egungo erabilera konparatzen da historian zehar, XIX. mende bukaeraraino, izan duen erabilerarekin. OEH—>EPG ageri denean, berriz, gaurko erabilera batasuna egiten hasi zen arterainokoarekin.

EPGren datutegiari dagokionez, gaur-gaurkoz HBEPn ez dira lema konplexuak (hitz anitzekoak) ageri. OEHko azpisarreren hustuketaren ondorioz, hitz anitzeko lemen zerrenda osatu dugu, eta EPGn duten maiztasuna neurtu. Horrela, 11.472 lema berri gehitu zaizkio HBEPri, hitz anitzekoak: «bihotz-begi», «gozoaren gozoz» edo «puntu-puntuan» bezalakoak, adibidez.

 

Emaitza

Datu orokorrak hauek dira:

  • Aintzat hartutako lemak:
    • OEH: 72.325
    • OEH19: 46.861
    • EPG: 55.727
  • Konparazioan sartu diren lemak: Alegia, OEHn eta EPGn bietan ageri direnak sartu dira. Bietako batean ageri ez bada, ez da aipatzen. Bi corpusetan ageri diren lemen kopurua hau da:
    • LAG: 33.589

    Zer esan nahi du horrek? OEHko lemak 72.325 baldin badira, baina bi corpusetan ageri direnak 33.593 bakarrik, horrek esan nahi du badirela OEHko 38.736 (72.325-33.589) lema EPGn ez daudenak, eta 22.138 (55.727-33.589) alderantziz, EPGn bai baina OEHn ez. Horretarako arrazoiak hiru izan daitezke:

    • Lexikoaren beraren eboluzioa. Adibidez, OEHn bertan, badira 25.464 sarrera edo azpisarrera adibidedun, XX. mendea baino lehenagoko adibide bakar bat ere ez dutenak (OEH19-n ez daudenak).
    • Lexikalizatzeko irizpide desberdinak. Bi iturburuetako bakoitzak bere moduan erabaki du zein den hitz baten forma lexikalizatua edo lema. Adibidez, «iratzartze» OEHn sarrera da, baina EPGn ez da lema, baizik eta «iratzarri» lemaren barruko forma soila.
    • Detekzio mekanismoaren akatsak. Baina badira, azkenik, OEHko testutik informazioa erauzteko erabili den mekanismoak izan ditzakeen hutsak. Adibidez, OEHko sarrera bakoitzeko forma normalizatu bakarra hartu da kontuan, lehenik ageri dena, eta ondoren diren aldaerak baztertu.
  • Mailakatzea:

    Esan bezala, 0-10 mailako eskala erlatiboa antolatu da bi corpusak alderatu ahal izateko. Irizpide nagusia corpus desberdinetako kopuruak elkarren artean parekatzea izan da:

      10. maila 8-10. mailak 4-10. mailak
    OEH19 1.484 4.805 16.337
    OEH 1.476 4.874 21.302
    EPG 1.495 5.036 20.226

    Mailakatzearen datu xehatuak fitxategi honetan daude: mailakatzea.pdf.

2008ko azaroa

 

Nodoa: liferay1.lgp.ehu.eus