Ruta de navegación

Agenda

Egungo Testuen Corpusa compila el mayor corpus del euskera jamás elaborado

Fecha de primera publicación: 11/03/2013

Imagen

Formada únicamente por textos en prosa del siglo XXI, esta colección on-line ofrece la información de forma muy intuitiva.

Hoy, día 11 de marzo, en Bizkaia Aretoa, se ha presentado Egungo Testuen Corpusa, el último proyecto que ha desarrollado el Instituto de Euskera de la UPV/EHU. En el acto han intervenido el lehendakari Iñigo Urkullu; Iñaki Goirizelaia, rector de la UPV/EHU; Pello Salaburu, director del Instituto de Euskera de la UPV/EHU; Ibon Sarasola, profesor de la UPV/EHU e investigador del Instituto de Euskera, y Pablo Mongelos, director general de Lagun Aro.

Egungo Testuen Corpusa (ETC) es el corpus más grande jamás elaborado en euskera. Este corpus on-line reúne, de hecho, 205 millones de palabras. Así, Ereduzko Prosa Gaur, un corpus desarrollado anteriormente por el Instituto de Euskera, abarcaba 25 millones de palabras; para elaborar Orotariko Euskal Hiztegia, de Euskaltzaindia, -el trabajo más exhaustivo de análisis del euskera escrito que se ha llevado a cabo- se utilizó un corpus de 5 millones de palabras. Aún más, teniendo en cuenta sus características, ETC es uno de los corpus más amplios del mundo, pues aunque los hay mayores, la información que ofrecen sobre cada palabra es más básica y menos manejable. "Nuestra interfaz es muy simple, clara e intuitiva, fácil de usar", explica el director del Instituto de Euskera Pello Salaburu.

Otra característica fundamental de este corpus es que todos los textos que lo conforman son del siglo XXI. "El euskera se ha estabilizado mucho a partir de 2000, pues ese año publicó Euskaltzaindia Hiztegi batua y eso ha tenido gran influencia", indica el director del Instituto de Euskera. Entre los textos, los hay de Hegoalde e Iparralde, todos son en prosa (libros, prensa y textos de Wikipedia) y han sido escogidos por su calidad. Algunos han sido escritos originalmente en euskera, otros son traducciones de otras lenguas. Así mismo, se han tomado en cuenta las fuentes y años de creación, para que tengan un peso similar.

Realizar búsquedas en ETC resulta muy sencillo, y los resultados son muy ricos. Ofrece información de cada palabra, dando la posibilidad de distinguir entre lema (etxe) y todas sus variantes (etxea, etxeak, etxera, etxetik...). Al hacer la búsqueda, aparece automáticamente una "tarta" formada por el lema y sus variantes, y muestra en porcentaje cómo se reparten estas últimas. También se pueden hacer consultas sobre todos los ejemplos de cada variante: la palabra aparece en la frase en la que está inserta, y se indica quién es el autor, cuándo y dónde aparece… Así mismo, permite examinar las palabras que empiezan de determinada manera; comparar entre varios términos el uso que se les da, consultar conjuntos de palabras (aparezcan una junto a otra o intercaladas con otras) y un largo etcétera.

ETC ofrece amplia información y posibilidades de búsqueda sobre las palabras que escojamos. Así, un gráfico permite observar la evolución del uso de un término, mostrando año a año si se va utilizando más o menos (esto abre vías para analizar los motivos de esa evolución) y los ejemplos se pueden ver clasificados año a año. La consulta también se puede realizar teniendo en cuenta el origen del texto: si es original, traducción o neutro (a veces resulta difícil saber si es un texto creado desde la base, o es traducción, como sucede, por ejemplo, en los textos extraídos de la Wikipedia). Y nos da información sobre si se utiliza más cuando ha sido creado o traducido. Lo mismo sucede respecto a la fuente: informa sobre dónde se utiliza más la palabra escogida: en prensa (y, en concreto, en qué medio), en literatura, ciencia, en las enciclopedias, en televisión…

Así mismo, ETC proporciona la red semántica, esto es, la cadena formada por otras palabras que tienen las mismas propiedades que el término buscado. Por ejemplo, en la red semántica de apaiz están abade, apezpiku, meza, eliza... "Estas redes son imprescindibles para elaborar diccionarios, que hoy en día se confeccionan utilizando información de este tipo", indica Salaburu. También permite hacer combinar un lema con otro, para poder así comprobar qué palabras o qué categoría de palabras aparecen delante y detrás del término escogido.

"Todo esto se hace de un modo simple e intuitivo. Hemos analizado los sistemas que se utilizan en el mundo y creo que con el trabajo que ha realizado el técnico del Instituto de Euskera Josu Landa el nuestro ofrece muchas mejoras". Para llevar adelante este proyecto el Instituto de Euskera de la UPV/EHU ha recibido el apoyo de la Fundación Lagun Aro.