euskaraespañol

Un novedoso corpus multilingüe empareja textos escritos en cuatro lenguas

Presentados varios productos desarrollados a partir de la colaboración entre la Viceconsejería de Política Lingüística y el Instituto de Euskera de la UPV/EHU

Fecha de primera publicación: 06/05/2016

El viceconsejero de Política Lingüística, Patxi Baztarrika, y el director del Instituto de Euskera de la UPV/EHU, Pello Salaburu, han presentado esta mañana en Bilbao un novedoso corpus multilingüe (Hizkuntzen Arteko Corpusa/Corpus Multilingüe Paralelo) que servirá de gran utilidad a aquellos profesionales que utilicen las lenguas como herramienta de trabajo, ya sean traductores, docentes, escritores o investigadores. Además, se ha presentado la actualización del corpus más grande de euskera (Egungo Testuen Corpusa/Corpus de Referencia del Siglo XXI, con 270 millones de palabras) existente en la actualidad. Cabe recordar que el Instituto de Euskera de la UPV/EHU recibe desde hace doce años apoyo económico de la Viceconsejería de Política Lingüística. Además de estos dos corpus, también se han presentado otros dos nuevos productos desarrollados por el Instituto de Euskera.

Corpus Lingüístico

Un corpus lingüístico es un conjunto de textos almacenados en formato electrónico y agrupados con el fin de proporcionar información detallada y fiable de una lengua o una determinada variedad lingüística. Su objetivo es constituirse en elemento de referencia para consultas y estudios.

Los corpus son herramientas imprescindibles hoy en día. De hecho, todas las lenguas desarrollan diferentes corpus con distintos fines. El Instituto de Euskera cuenta con varios corpus.

Esta mañana se han presentado las siguientes aplicaciones:

Hizkuntzen Arteko Corpusa (HAC)/ Corpus Multilingüe Paralelo

Hizkuntzen Arteko Corpusa (HAC) es un novedoso corpus empareja textos escritos en cuatro idiomas: euskera, castellano, francés e inglés. Así, se puede observar cómo ha empleado una misma palabra cada autor en textos semejantes. Sin duda, este corpus es una herramienta muy válida para realizar traducciones, por ejemplo. Al mismo tiempo, pone en evidencia los aciertos, así como "las pequeñas trampas" y trucos que hace cada traductor.

El corpus recoge textos que están escritos en los cuatro idiomas anteriormente citados, sin que importe el idioma de origen en el que se escribieron. De hecho, podemos encontrar libros como ‘Metafísica' de Aristóteles o ‘Los Viajes de Gulliver' de Jonathan Swift. Como estos dos trabajos han sido traducidos al euskera, castellano, inglés y francés, tienen cabida en este corpus.

Si en este corpus introducimos o hacemos una búsqueda con la palabra ‘casa', por ejemplo, el programa nos mostrará todas las frases que contienen ésa palabra y podremos ver esas mismas frases traducidas en los cuatro idiomas. Esta herramienta es muy útil para aquellos profesionales que utilizan los idiomas como herramienta de trabajo.


Egungo Testuen Corpusa (ETC)/ Corpus de Referencia del Siglo XXI 

Egungo Testuen Corpusa (ETC) es un corpus que contiene textos del siglo XXI y ofrece la oportunidad de realizar búsquedas mediante palabras o lemas. Los textos han sido previamente seleccionados por su calidad y fiabilidad. Es decir, no se han utilizado textos elegidos al azar. Las fuentes son muy diversas: libros, novelas, periódicos, revistas…, que pueden ser originales o traducciones. Cabe destacar que este corpus contiene 270 millones de palabras (en un principio tuvo 205 millones de palabras pero, gracias a esta actualización, se le han añadido 65 millones más).

La cantidad de palabras que contiene este corpus es muy elevada. De hecho, es el mayor corpus de euskera que existe en la actualidad. Si se compara con el de la RAE, el Corpus de Referencia del Siglo XXI tiene muchas palabras más. El corpus de la RAE tiene, en estos momentos, 215 millones de palabras. 

Además, se han presentado dos aplicaciones que serán de gran utilizad, sobre todo, para los estudiantes.

Euskal Adizkitegi Automatikoa/Generador Automático de Formas Verbales en Vasco (para ordenadores, teléfonos y tablets): Esta aplicación nos ofrece información sobre la morfología del verbo vasco. Hay que elegir las formas personales (nor-nori-nork), el tiempo (presente, pasado), y la potencialidad (del verbo). La aplicación genera de forma automática la forma verbal buscada. También funciona a la inversa: se escribe la forma verbal y la aplicación informa sobre las características del verbo.

Euskal Kasutegi Automatikoa (para ordenadores): hay que elegir una palabra, elegir la opción de singular o plural, elegir el tipo de caso o posposición, y la aplicación nos dará un ejemplo de manera automática. También ofrece la definición de la palabra buscada, así como el acceso automático a todos los ejemplos de las bases de datos en las que aparece esa palabra o lema.

El viceconsejero de Política Lingüística, Patxi Baztarrika, ha explicado lo siguiente en su intervención: "El Gobierno Vasco firmó en 2008 el primer convenio de colaboración con el Instituto de Euskera y, como vemos, el convenio está dando unos frutos extraordinarios. Además de los productos que nos ha enseñado el señor Salaburu, ahí tenemos, por ejemplo, la Gramática Vasca en Red".

Y ha añadido: "al euskera no le resultan extraños lugares como la universidad, el colegio, el mundo laboral, el mundo del deporte… ni ningún otro lugar. El euskera tiene hablantes de muchos tipos y, además, cada vez son más en número. Además, estos hablantes se encuentran cada vez en más ámbitos: escritores, periodistas, traductores, profesores… Los hablantes necesitamos herramientas y referencias adecuadas, que sean fáciles de consultar y que nos ayuden para mejorar en nuestro trabajo. Como, por ejemplo, las que hoy hemos presentado". 

"Nuestro mayor objetivo es que el euskera sea una lengua viva, cada vez más viva. Para ello no hay mayor secreto que su uso. Y para que ocurra esto, necesitamos que el euskera sea una herramienta cómoda, rica y ágil. En este sentido, no hay duda de que el trabajo del Instituto de Euskera y los productos que hoy se han presentado serán de gran ayuda".

Pello Salaburu ha expuesto lo siguiente: "estamos muy contentos con la colaboración que mantenemos desde hace años con el Gobierno Vasco. Para nosotros nos es imprescindible. Las herramientas que hoy hemos presentado servirán de gran utilidad a aquellos profesionales que utilicen las lenguas como herramienta de trabajo".