Erabiltzaile Tresnak


hizk:1:3:1

Hitz-banatzailea

Hitz-banatzaile edo tokenizer izeneko tresnaren helburua testuko hitzak bereiztea da, gero banan-banan analiza daitezen. Euskara bezalako hizkuntzetan zuriuneak eta puntuazioa ondo kudeatuz gero, ez da oso zaila halako bat eraikitzea, baina ekialdeko hizkuntzetan (japoniera, koreera, etab.) sakoneko arazoa da eta ezin da sakoneko prozesaketetatik bereizi.

Edozein kasutan, hizkuntza guztietan daude arazoak hitzak banatzerakoan, karaktere batzuen erabilera anbiguoa izan daitekeelako. Euskaraz ere, puntua eta marratxoa nahiko anbiguoak dira.

Horrela, etab. idazten denean puntua hitzaren parte da, eta gainera ez du beti esaldi-bukaera adierazten. Zer esanik ez zenbaki ordinalen puntua denean (2.a), kasu horretan ez baita banatzailea. Marratxoak ere arazoak sortzen ditu. Hitz-elkarketetan erabiltzen denean zalantzazkoa da hitz-banatzaile den ala ez. Ez banatzea komenigarria da sintaxiari begira, baina ez beste kontu batzuetarako. Gainera, testu-editore batetik inportatu bada, batzuetan marratxoa agertzen da hitz baten bi zatiren artean, lerro-bukaeran tokirik ez zegoelako hitz osorako eta testu-editoreak automatikoki gehitu duelako, adibidez. Are gehiago, oraindik egokitu gabeko maileguek ere marratxo bidez bereiz dezakete flexioa testua ulergarria izan dadin (Times-ek, esaterako).

lanaren aipamena nola egin...

Euskara Institutua, EHU, "Hitz-banatzailea", Sareko Euskal Gramatika (SEG), www.ehu.eus/seg
ISBN: 978-84-693-9891-3