Ogi apurrak

Goenkale corpusa

Goenkale ETB1en emititzen den euskarazko telesaila da, Pausokak eta EITBk ekoitzia. 1994an abiatuta, 20 urteko ibilbidean 3.500 atal baino gehiago eman ditu. Horietatik eskuratu ahal izan diren testuekin osatuta dago corpus hau. Hona corpuseko datu batzuk:

  • atalak: 2.995
  • sekuentziak: 47.228
  • hizketaldiak: 996.488
  • testu hitzak: 13,3 milioi
  • hizketaldietako testu hitzak: 9,3 milioi
  • argitaratze data: 2014-04-03

EHUko Euskara Institutuak modu askean kontsultatzeko gisan jartzen du "Goenkale corpusa". Hemengo materiala telesail horretako kapituluak egiteko erabilitakoa da. Nolako informazio mota gaineratzen du material honek? Zergatik sartu da hemen? Euskaraz gero eta material gehiago ditugu eskura, baina material horien artean hutsune nabarmen bat dago: elkarrizketena. Hutsune horren zergatia erraz atzematen da: zaila da oso egiazko elkarrizketak ongi grabatzea, eta transkribaketa zuzenak ematea. Egia da badirela elkarrizketak eleberri eta antzerki lanetan. Baina oso material gutxi dago, inon baldin bada, ETBko "Goenkale" sailak eskaintzen digun adinakoa, kalitatez nola kopuruz. Eta, gainera, hori jendeak ere hala dio, elkarrizketa hauek biziak dira, naturalak hizkuntza aldetik, eta teleikusleek ere hala diote. Beraz, hori da arrazoia: aukera paregabea dugu ikusteko nolako testuingurua duten euskal hitzek beste erregistro honetan, elkarrizketarenean alegia.

Corpusa, gainera, ez da batere txikia: 13,3 milioi hitz, eta horietatik 9,3 milioi hizketaldi bizikoak. Euskara Institutuak esker bereziak ematen dizkie Pausoka-ri eta EITBri material hau gure esku jartzeagatik.

Nodoa: liferay2.lgp.ehu.es