Dra. Nora Aranberri (UPV/EHU)

Imagen

Nora Aranberri (UPV/EHU) es investigadora del equipo de investigación IXA sobre procesamiento de lenguaje natural (http://ixa.si.ehu.es/) y profesora en la Facultad de Educación de Bilbao en la UPV/EHU. Es experta en traducción automática, área en la que su principal interés es la integración del conocimiento lingüístico en sistemas de traducción automática así como su evaluación. En especial, se centra fundamentalmente en el uso de traductores profesionales y usuarios no profesionales. Aunque no exclusivamente, sus lenguas de trabajo suelen incluir el euskera, explorando así las posibilidades de la traducción automática con lenguas minoritarias. Ha dirigido talleres prácticos sobre post-edición para traductores profesionales y aprendices y es colaboradora de la Asociación de Traductores, Correctores e Interpretes de la Lengua Vasca.

Corpus paralelos y traducción automática: oportunidades, desafíos y… euskera

Los corpus paralelos son esenciales para el desarrollo y evaluación de un gran número de aplicaciones de procesamiento de lenguaje natural. En muchos casos, sin embargo, compilar corpus paralelos adecuados es un gran desafío. Esta conferencia se centra en etapas del desarrollo e implementación de la traducción automática (TA) en las que los corpus paralelos juegan un papel fundamental. En primer lugar, consideraré las características de los datos necesarios para desarrollar los sistemas de traducción. Examinaré maneras en las que los investigadores han abordado la creación de corpus paralelos, prestando especial atención a corpus generados de forma manual y de forma automática, y discutiré las implicaciones de la traducción inversa en esta etapa. En segundo lugar, examinaré los requisitos necesarios para usar corpus paralelos en la etapa de implementación, de manera que los usuarios puedan beneficiarse de la TA. Asimismo, examinaré corpus compilados para extraer conclusiones el uso de TA por traductores profesionales y usuarios no profesionales. A lo largo de la presentación comentaré ejemplos que contienen euskera, para así resaltar las implicaciones de trabajar con una lengua minoritaria sobre la que los recursos de investigación escasean.

Dr. Xavier Gómez Guinovart (Universidade de Vigo)

Imagen

Xavier Gómez Guinovart es profesor de Lingüística Computacional en la Universidade de Vigo y coordinador del Grupo de Investigación TALG (Tecnoloxías e Aplicacións da Lingua Galega) de esta universidad, en el que se inscriben las actividades del Seminario de Lingüística Informática (http://sli.uvigo.gal). Sus áreas de interés incluyen las aplicaciones lingüísticas de la informática, el desarrollo de recursos léxicos multilingües y ontologías, y la construcción y explotación de corpus paralelos y especializados. Dirigió como investigador principal múltiples proyectos competitivos en el ámbito de las tecnologías de lengua gallega y participa activamente en redes de investigación y en la organización y evaluación de actividades científicas y revistas académicas, siendo editor de la revista Linguamática (http://linguamatica.com) dedicada al procesamiento computacional de las lenguas propias de la Península Ibérica.

Las redes semánticas en la construcción y explotación de corpus paralelos

En esta exposición presentaré algunas direcciones recientes de la investigación sobre corpus paralelos que llevamos a cabo en el Seminario de Lingüística Informática de la Universidade de Vigo. Mi presentación se centrará en la integración de la información léxico-semántica proporcionada por WordNet en la construcción y explotación del Corpus CLUVI y el Corpus SensoGal. Esta integración permite un aprovechamiento mutuo de los recursos que, de hecho, se da en las dos direcciones: del corpus paralelo a WordNet y de WordNet al corpus paralelo.

Así, por un lado, se pueden aplicar diversas técnicas de extracción de equivalencias a los corpus paralelos para ampliar la cobertura léxica de los wordnets de las lenguas alineadas. También se pueden aprovechar los corpus paralelos para obtener contextos de uso para WordNet de los conceptos recopilados en la red, siempre que se procese previamente el corpus con un tratamiento semántico adecuado.

Por otro lado, WordNet puede ser usado de diversos modos para el alineamiento de corpus paralelos a nivel léxico y para su etiquetación léxico-semántica. Por ejemplo, el grafo de las relaciones semánticas de WordNet se utiliza para la construcción de etiquetadores semánticos que se pueden aplicar en la desambigüación léxica de corpus paralelos. Otro recurso explotado con otras técnicas para este mismo fin ha sido el Corpus SemCor de la lengua inglesa, anotado semánticamente por el mismo equipo que desarrolló el WordNet del inglés en Princeton.

En mi exposición trataré de ofrecer una perspectiva amplia de los distintos aspectos de esta investigación en curso, con el objetivo de que se puedan apreciar debidamente los beneficios de la anotación de la semántica léxica en la construcción y explotación de corpus paralelos.

 

Referencias bibliográficas

Gómez Guinovart, Xavier y Miguel Anxo Solla Portela (2020): Construction of a WordNet-based multilingual lexical ontology for Galician. En María José Domínguez Vázquez, Mónica Mirazo Balsa y Carlos Valcárcel Riveiro (eds.): Studies on Multilingual Lexicography, De Gruyter, Berlín & Boston, pp. 179-196. DOI: https://doi.org/10.1515/9783110607659.

Gómez Guinovart, Xavier (2019): Enriching parallel corpora with multimedia and lexical semantics: From the CLUVI Corpus to WordNet and SemCor. En Irene Doval y M. Teresa Sánchez Nieto (eds.), Parallel Corpora for Contrastive and Translation Studies: New resources and applications, John Benjamins, Amsterdam, pp.141-158. DOI: https://doi.org/10.1075/scl.90.09gom.

Simões, Alberto y Xavier Gómez Guinovart (2018): Extending the Galician wordnet using a multilingual Bible through lexical alignment and semantic annotation. En Pedro Rangel Henriques, José Paulo Leal, António Menezes Leitão y Xavier Gómez Guinovart (eds.): 7th Symposium on Languages, Applications and Technologies (SLATE 2018), Schloss Dagstuhl/Leibniz-Zentrum fuer Informatik, Dagstuhl, pp. 14:1-14:13. DOI: https://doi.org/10.4230/OASIcs.SLATE.2018.14

Gómez Guinovart, Xavier y Miguel Anxo Solla Portela (2018): Building the Galician wordnet: Methods and applications. Language Resources and Evaluation, 52:1, pp. 317-339. DOI: https://doi.org/10.1007/s10579-017-9408-5.

Dra. Signe Oksefjell Ebeling (Universidad de Oslo)

Imagen

Signe Oksefjell Ebeling es Catedrática de Filología Inglesa en la Universidad de Oslo, Noruega. Sus intereses de investigación incluyen la semántica del verbo, la fraseología o la idiomaticidad desde un enfoque de lingüística contrastiva basada en corpus. Ha publicado sobre estos temas varios artículos así como la obra monográfica Patterns in Contrast (2013), junto con J. Ebeling. Ha co-editado varios volúmenes sobre análisis contrastivos y de 2014 a 2019 fue editora (junto con H. Hasselgard) de la revista Languages in Contrast. Ha sido miembro de varios proyectos sobre corpus lingüísticos, como el English-Norwegian Parallel Corpus (ENPC), su extensión ENPC+, y el Oslo Multilingual Corpus (OMC). Participó  Actualmente está trabajando en la compilación de dos corpus comparables: el English-Norwegian Match Report Corpus y el International Comparable Corpus.

 

https://www.hf.uio.no/ilos/english/people/aca/signeo/index.html

Corpus paralelos bidireccionales: Desafíos y Posibilidades

En esta conferencia presentaré algunos de los desafíos principales que plantea el uso de corpus paralelos bidireccionales en la investigación en lingüística contrastiva y compartiré el conocimiento adquirido con mi propia experiencia en la compilación y explotación de este tipo de recurso. A pesar de los desafíos que se comentan, me centraré en el potencial de los corpus paralelos bidireccionales y mostraré algunas de sus posibilidades de uso. En concreto, daré ejemplos de distintos estudios contrastivos que se han beneficiado del corpus bidireccional diseñado por Stig Johansson (Johansson & Hofland 1994). En este sentido, mostraré una variedad de estudios sobre determinados recursos o patrones en dos lenguas a nivel léxico y lexicogramatical, así como otros estudios experimentales sobre n-gramas.