Bilaketa aurreratua

Ogi apurrak

Euskal Hiztegiaren Maiztasun Egitura (EHME)

Euskal Hiztegiaren Maiztasun Egitura (EHME)
zuzen erabiltzeko ohar batzuk

Sarrera

Hemen aurkezten dugun aplikazio hau euskal hitz modernoen maiztasunen egituraren hiztegi aberats bat da. XXI. mendeko testuetan oinarritua, hainbeste gauza neurtzen ditu, betiere hitzen egituraren inguruan. Hasieran, hotz-hotzean sarturik, konplexu samarra dela ematen badu ere, ez zaio zail gertatuko interesdunari zuzen erabiltzea. Aplikazioan ageri diren funtsezko datuak hasierako orrian ikus ditzakezu, "datuak" atalean klik eginez. Horrela, 22.704.373 hitzeko corpusa dela ikusten duzu, aplikazioaren oinarrian dagoena, eta 53.310 lema dituela. Badira beste datu gehiago ere.

Nahi dugun informazioa eskuratzeko bi modu daude: datuetatik abiatuz, edo hitzetatik abiatuz. Eta beti sistema bera erabiltzen da: bilatzen ditugun datuen berri eskuineko aldean agertuko zaigu, baina bilatu nahi duguna behar bezala zehazteko ezkerreko zutabean jarri behar ditugu begiak, eta han aukeratu zer motatako informazioa nahi dugun eskuratu.

Hasiera-hasieran bistaratzen den orrialdean, eskuineko aldean "Emaitza ordenatu" eta "Emaitzaren xehetasunak" ikusten ditugu, eta bakoitzaren azpian bina aukera. Xehetasunetan ohartzen bagara, "murriztuak" eta "guztiak" ikus daitezke. Horrek esan nahi du, bilatu nahi dugun informazioa dela eta, bi aukera ditugula: bat funtsezkoa ("murriztua") eta bestea osoa ("guztiak"). Bigarren aukera honek informazio handia ematen du, baina informazioa eskuratzea astunagoa gerta daiteke, irakurtzeko zailagoa eta pisu handiagokoa.

Beraz: ezkerreko aldean zehazten da nolako informazioa bilatu nahi den, eta eskuineko aldean ikusten dugu informazio hori, guk aukeratzen dugun modura ordenatua ("maiztasunez" edo "alfabetoz") eta osatua ("murriztua" edo xehetasun guztiekin -"guztiak").

Adibide bat proba egiteko

Ezkerrean, MAIZTASUNA atalean, "Agerpen kopurua", "Milioi hitzekoa" eta "Logaritmoa" ikus dezakegu.

Lehenbizikoa bakarrik azalduko da, eta funtsezko kontuetan bakarrik (hauek ulertuz gero bestea ez baita zaila batere ulertzeko), besteekin berdin-berdin egiten baita.

"Agerpen kopurua" dela eta datu batzuk ematen zaizkigu: badakigu 22.704.373 hitzeko corpus horretan badela bat (edo gehiago) 987.639 aldiz errepikatzen dena. Eta badela beste bat (edo gehiago) behin bakarrik ageri dena. Eta hitzak, bataz beste, 60 aldiz errepikatzen direla (batzuk asko, beste batzuk askoz ere gutxiago).

Demagun nahi dugula ikusi zein diren 987.639 aldiz errepikatzen den, edo diren, hitz hori (edo horiek). Ezkerreko aldean, "Agerpen kopurua" izenekoan klik egin behar da. Berehala ikusiko dugu eskuineko aldean berritu dela leihoa. Eta hor "gehienez" eta "gutxienez" aukerak ditugu. "Gehienez" horretan 987.639 zenbakia jartzen badugu, hau da makinari eskatzen ari gatzaizkiona: esan hitz agerpen guztiak 1-etik 987.639-raino, gehiena markatu baitugu, baina ez gutxiena: makinak 1-etik goiti ageri diren guztiak aukeratuko ditu modu automatikoan. Horrek denbora eskatuko dio aplikazioari, informazio handia ari baikara eskatzen: zein den behin bakarrik ageri den hitza, zein 2 aldiz, zein 3 aldiz, zein 4 aldiz, eta abar, 987.639raino iritsi arte. Orduan ikusiko dugu "eta", "ez" eta "da" direla corpusean gehien errepikatzen den hitza, eta horiek agertzen zaizkigu zerrendaren buru:

Hor lehenbiziko orrialdeko hiru hitzak bakarrik kopiatu ditugu. Aplikazioak esaten digu informazioa 7.556 orritan datorkigula. Gainera, maiztasunez ordenaturik ageri dira. "Alfabetoz" horretan klik eginez gero, hitz berberak alfabetikoki ordenaturik ikusiko genituzke.

Alderantziz egin dezakegu orain proba: aukeratu "gutxienez" 987.639 aldiz zer den ageri dena. Orduan, "eta" bakarrik ageri da, eta prozesua askoz ere arinagoa gertatzen da:

Informazio gehiago ere ematen digu horrek: zenbat silaba dituen hitz bakoitzak, eta zein diren hitz horren auzokideak.

Beste bilaketa batzuk

Azaldutakoa da funtsezkoena. Hortik aurrera, maiztasunak bilatu nahi dituenak aski du komeni zaizkion aukerak egitea. Goiko adibidean, esaterako, arteak aukeratu daitezke: bilatu nahi ditugu gehienez 60.000 aldiz eta gutxienez 24.000 aldiz errepikatzen diren hitzak, adibidez. Eta aplikazioak emango ditu tarte horretan dauden hitz guztiak. Kurtsorea azalpenen gainean jarriz gero, "maiztasuna" hitzaren gainean, adibidez, hor zer esan nahi dugun adieraziko da. Informazio hau oso praktikoa da jakiteko, esaterako, zein diren euskaldunok maizen erabiltzen ditugun hitzak (balio lezake, esaterako, euskara mailak egiazko hitz datuekin zehazteko).

Sistema bera segitu behar da "milioi hitzekoa" eta "logaritmoa" izenaren azpiko datuak eskuratzeko. Komeni da, aldi bakoitzean,bilatu den informazioko leiho hori ixtea, eskuineko aldean klik eginez. Horrela beti geratuko da libre eskuin parte hori beste bilaketa bat egiteko. Ez da ezer ere gertatzen, hala ere, ixten ez bada, bilaketa zehatzagoak emango baitizkigu. Jo dezagun, esaterako, jakin nahi dugula zein diren gehienez 2.000 aldiz ageri diren hitzak, eta gutxienez 100 aldiz. Tarte horretako hitzak. Baina, aldi berean, jakin nahi dugu zein diren, hitz horien artean, gutxienez 6 silaba dituztenak, eta gehienez 8. Informazio hori guztia aldi berean eska daiteke:

Eta informazio hori automatikoki sortuko zaigu:

Ikusten denez, oso erraz ibil daiteke bat aplikazioaren datuak eskuratzeko orduan.

Informazio berbera lortzen da EGITURA ORTOGRAFIKOA izeneko atalean: jakin nahi badugu hitzen letra kopurua, eta zein diren hitz horiek, edo silaba kopurua, eta zein diren silaba kopuru duten hitz horiek. Demagun nahi ditugula ikusi gehienez 12 silaba duten hitzak, eta gutxienez 11. Hori eskatuz gero, horrela hasiko zaigu informazioa:

Zailtxoago gerta daiteke "Kontsonante-bolaka egitura" eta "silaba egitura" zer den asmatzea. Hor guk zehaztu behar dugu zer nahi den bilatu. Demagun euskal VVCCV egitura duten hitzak bilatu nahi ditugula. Hau da, hitz horiek bi bokal dituzte hasieran, gero bi kontsonante, eta azkenean bokal bat. Informazio hori nahi dugula erabakiz gero, klik egin hor eta eskuin aldean irekiko da leihoa beti bezala. Han "VVCCV" idatzi behar da (komatxoak gabe, noski). Berehala emango zaigu informazioa. Honela hasten da (ez dugu osorik kopiatzen):

Horiek dira egitura duten euskal hitzak (gure corpusean ageri diren hitzak, esan nahi dugu). Urrunago joan gaitezke: aplikazioari eskatzen ahal diogu nahi dugula jakin zein diren horrela bukatzen diren hitzak, zernahi dutela aurretik. Horretarako, aukera hola egin behar da: "%VVCCV". Eta hau aterako da (hola hasten da informazioa):

Ikusten denez, aurreko hitz guztiak, gehi aurretik zerbait gehiago duten hitzak jasotzen dira (aurreko informazio zerrendan ez zegoen, esaterako, "herrialde" hitza).

"Silaba egitura" sailean hitz bat aukeratu behar da, eta silabatan banatu: "ka-tu-a":

Baina bilaketa konplexuagoak ere egin ditzakegu. Pentsa dezagun, esaterako, interesa dugula tartean "ka" testua eta "re" silaba biltzen dituzten hitzak eskuratu nahi dugula. Orduan hau jarri behar dugu leihoan: "%ka%-re-%". Hau da, "ka" horren aurrean edozein gauza, ondoren ere edozein, gero "re" silaba etorriko litzateke, eta azkenean beste edozer gauza. Hori eskaturik, hau ematen digu (beti bezala, zerrendako hasiera besterik ez da):

"Letra errepikaturik" aukerak informazio sinplea ematen digu: dugun corpuseko hitzetan letraren bat errepikatzen den ("1" aukeratu behar orduan), edo ez ("0"). Nahi dugula jakin zein diren letrarik errepikatu gabe ditugun hitzak? Batzuetan hori nahi izaten ahal dugu. Bigarren aukera egin. Eta hau da emaitza:

Noski, bilaketa zehatzagoa egin dezakegu. Bilatu nahi ditugu barnean letrarik errepikatzen ez duten hitzak, baina hitz hauek gutxienez 4.000 aldiz agertu behar dira, eta duten letra kopurua 4 eta 10en tartekoa da. Bilaketa hola egin behar dugu:

Eta hola aterako zaigu zerrenda:

Ikusten denez, zerrenda hau eta aurrekoa ez dira berdinak.

"Hitza bera" aukeratuz gero, hitz baten inguruko informazioa ematen digu. Demagun "etxe" hitza. Hau aterako zaigu:

Informazioa eskuratzea oso baliagarri izan daitezke beste zeregin batzuetarako. Adibidez, nahi dugu eskuratu "ti" letrekin bukatzen den hitz zerrenda. Bi bide erabil ditzakegu horretarako:

1) "Bestelakoak" atalean "Hitza bera" aukeratu eta eskuinaldean sortu den "testua" leihoan "%ti" jarri. Berehala aterako da zerrenda.

2) Bigarren moduak aukera gehiago ematen digu. Lehenik "Silabak eta multzoak" erlaitza aukeratu. Hor "Silabak" aukeratu. Beti bezala, leiho berria agertu da eskuin aldean. Eta hor, "silaba" esaten duen tokian "ti" idatzi behar da. Zein da, lehenbiziko sistemarekin erkaturik, honek ematen duen informazioa? Bada, "ti" hori hitzaren edozein tokitan bilatu dezakezula: amaieran, hasieran edo tartean.

Bilaketa konplexuago eta osoagoak

Demagun nahi dugula zerrenda bat izan honako baldintzak betetzen dituzten hitzek osatua: gehienez 4-6 silabaren artekoak, eta "-ti" letrekin bukatuak. Hola eskatuko genuke informazioa:

Noski, nahi badugu hitzak 6 silabakoak izatea guztiak, gehienez 6 eskatu beharko genuke, eta gutxienez 6. Ikus dezagun eskatu dugun aurreko ionformazioak zer ematen digun (beti bezala, hasierako hitzak bakarrik daude hemen):

Aipatu ez badugu ere, bilaketan beste aukera batzuk egin daitezke: adibidez, jakin nahi dugu zein diren, hitz horien artean, izenak. Orduan "morfologia" ere aukeratu behar da, eta han "ize". Hau da sortzen zaigun informazioa orain (hitz guztiak bildu ditugu oraingoan: horiek dira corpusean baldintza guztiak betetzen dituzten hitzak):

Bilaketa horiek guztiak "xehetasun murriztuak" aukeraturik egin dira. Hori aukeratu beharrean, eskuin aldean, "guztiak" aukeratuz gero, askoz ere informazio gehiago ikusiko dugu hitz bakoitzaren inguruan: kopurua, maiztasuna, logaritmoa, luzera, silabak, CV egitura, BPO, ausokideak, auzokideak 1, auzokideak 2, auzokideak 3, auzokideak 4, auzokideak+, eta abar.

Hor, kurtsorea erabiliz, berehala konturatuko zara askoz ere informazio gehiago dagoela, "auzokideak" zein diren, eta abar.

Hitzetatik datuetara

Orain arte ikusitakoan beti datuetatik abiatu gara, eta horrek eman dizkigu hitzen inguruko informazioa, maiztasunez edo alfabetoz ordenatua. Alderantziz ere egin dezakegu, testu batetik abiatuz. Horretarako "Hitzetatik datuetara" izeneko lerroan egin behar duzu klik. Horrela bilduko dugu hitz bakoitzaren inguruan dagoen informazio guztia.

Hitz bat bakarrik, edo testu bat idatz dezakezu hor: "aitak amari gona gorri erosi dio". Hau emango dizu. Informazioa eskatuz gero, hau aterako zaigu:

Gure corpusa kontuan harturik hitz horiek horrela ageri dira: "aitak" 4578 aldiz, "amari" 1286 aldiz, eta abar. Testua nahi duzun bezalakoa izan daiteke, fitxategi batetik igoa ere.

Esan dezagun, azkenik, hemengo informazio guztia fitxategietan eskura dezakezula, txt formatuan.

Nodoa: liferay1.lgp.ehu.eus