Gaia

XSLaren edukia

Testu-corpusak

Gaiari buruzko datu orokorrak

Modalitatea: Ikasgelakoa
Hizkuntza: Ingelesa

Irakasgaiaren azalpena eta testuingurua

En este curso estudiaremos el uso de corpus textuales en la lingüística computacional. Empezaremos con una breve introducción a corpus lingüísticos, incluyendo las anotaciones lingüísticas y los esquemas de representación. A continuación, trabajaremos la extracción de información relevante del corpus, como pueden ser colocaciones o la extracción de palabras clave utilizando técnicas estadísticas y distribucionales. Por último, aprenderemos el lenguaje de etiquetado XML. A lo largo del curso trabajaremos con corpus en varios idiomas (inglés, español, euskera, etc).

Irakasleak

Izena	Erakundea	Kategoria	Doktorea	Irakaskuntza-profila	Arloa	Helbide elektronikoa
ARBELAIZ GALLEGO, OLATZ	Euskal Herriko Unibertsitatea	Irakaslego Agregatua	Doktorea	Elebiduna	Konputagailuen Arkitektura eta Teknologia	olatz.arbelaitz@ehu.eus
PEREZ RAMIREZ, ALICIA	Euskal Herriko Unibertsitatea	Irakaslego Agregatua	Doktorea	Elebiduna	Hizkuntza eta Sistema Informatikoak	alicia.perez@ehu.eus
SOROA ECHAVE, AITOR	Euskal Herriko Unibertsitatea	Irakaslego Agregatua	Doktorea	Elebiduna	Konputazio Zientzia eta Adimen Artifiziala	a.soroa@ehu.eus

Gaitasunak

Izena	Pisua
Capacidad para diseñar y gestionar recursos lingüísticos masivos (corpus textual y de voz sean monolingües, bases de datos léxicas, bases de conocimientos léxico-semánticas).	40.0 %
Habilidad para el manejo y adaptación de los métodos simbólicos más relevantes para la investigación en la tecnología de la lengua.	20.0 %
Capacidad para gestionar y diseñar sistemas basados en lenguajes estándares para el etiquetado de información lingüística (por ejemplo: XML y TEI).	40.0 %

Irakaskuntza motak

Mota	Ikasgelako orduak	Ikasgelaz kanpoko orduak	Orduak guztira
Magistrala	10	15	25
Laborategiko p.	20	30	50

Irakaskuntza motak

Izena	Orduak	Ikasgelako orduen ehunekoa
Eskola magistralak	25.0	40 %
Ordenagailuko praktikak, irteerak, bisitak	50.0	40 %

Ebaluazio-sistemak

Izena	Gutxieneko ponderazioa	Gehieneko ponderazioa
Bertaratzea eta Parte-hartzea	20.0 %	20.0 %
Azalpenak	20.0 %	20.0 %
Lan praktikoak	40.0 %	40.0 %
Portafolioa	20.0 %	20.0 %

Irakasgaia ikastean lortuko diren emaitzak

El objetivo del curso es ofrecer al estudiante la capacidad de identificar problemas del procesamiento del lenguaje natural como problemas de análisis de datos y poder resolverlos. El estudiante adquirirá conocimiento de los fundamentos de corpus lingüísticos y anotación de los mismos, incluyendo lenguajes de etiquetado como XML. Al finalizar el curso el estudiante será capaz de extraer información relevante de corpus lingüísticos basándose en análisis estadísticos.

Irakasgai-zerrenda

1. Introducción a corpus lingüísticos.

2. Características y tipos de corpus.

- Ejemplos de corpus

3. Anotación de corpus.

- Etiquetas comunes y análisis de niveles

4. Representación lingüística

- El lenguaje XML

- Estándares de la representación (TEI, NAF, AWA)

Bibliografia

Oinarrizko bibliografia

Aarts, J. And Meijs, W. (eds.) (1986) Corpus Linguistics II, Amsterdam: Rodopi.

Aijmer, K. and Altenberg, B. (Eds) (1991) English Corpus Linguistics: Studies In Honour Of Jan Svari. London: Longman.

Anthony, L. (2013) ¿A critical look at software tools in corpus linguistics¿, Linguistic Research, Volume 30, Issue 2, pp. 141-161.

Baker, P. (2010) Sociolinguistics and Corpus Linguistics. Edinburgh University Press, Edinburgh.

Garside, R., Leech, G. and McEnery, T. (1997) Corpus Annotation. Longman, Harlow.

Jurafsky D., Martin J.H. (2000) Speech and Language Processing. An Introduction To Natural Language Processing Computational Linguistics and Speech Recognition. Prentice-Hall.

Lawler J., Aristar H. (1998) Using Computers In Linguistics. A Practical Guide. Routledge.

Leech, G. And Fallon, R. (1992) "Computer Corpora - What Do They Tell Us About Culture". Icame Journal, 29-50.

McEnery, T. and Hardie, A (2012) Corpus Linguistics: Method, Theory and Practice. Cambridge University Press, Cambridge.

Text Encoding And Interchange, TEI P5 (2016) Chicago And Oxford: Text Encoding Initiative.

Menu Display

Search Bar

Hizkuntzaren eta Komunikazioaren Teknologiak Erasmus Mundus Masterra (LCT)

Gaia

XSLaren edukia

Testu-corpusak

Gaiari buruzko datu orokorrak

Irakasgaiaren azalpena eta testuingurua

Irakasleak

Gaitasunak

Irakaskuntza motak

Irakaskuntza motak

Ebaluazio-sistemak

Irakasgaia ikastean lortuko diren emaitzak

Irakasgai-zerrenda

Bibliografia

Oinarrizko bibliografia

Menu Display

Search Bar

Breadcrumb

Gaia

XSLaren edukia

Testu-corpusak

Gaiari buruzko datu orokorrak

Irakasgaiaren azalpena eta testuingurua

Irakasleak

Gaitasunak

Irakaskuntza motak

Irakaskuntza motak

Ebaluazio-sistemak

Irakasgaia ikastean lortuko diren emaitzak

Irakasgai-zerrenda

Bibliografia

Oinarrizko bibliografia