Materia

Contenido de XSL

Tecnologías del Habla

Datos generales de la materia

Modalidad: Presencial
Idioma: Inglés

Descripción y contextualización de la asignatura

El objetivo de la asignatura es que los y las estudiantes se familiaricen con las aplicaciones fundamentales del procesado de la señal de voz, como son la síntesis y el reconocimiento automático del habla. Con un enfoque práctico, se analizarán los principales paradigmas que se han dado en ambas tecnologías, se describirán los procedimientos para la generación de estos sistemas con la necesaria creación de recursos y BD de voz y los estudiantes practicarán con sistemas reales. Adicionalmente se revisarán brevemente otras aplicaciones relacionadas con el procesamiento de la voz como el reconocimiento de locutor o de la emoción, la conversión de voz o la diarización entre otras.

Para cursar esta asignatura el estudiante debe dominar los modelos básicos de producción del habla, los conceptos de análisis temporal y frecuencial de la señal y los fundamentos de digitalización de señales.

Profesorado

Nombre	Institución	Categoría	Doctor/a	Perfil docente	Área	Email
NAVAS CORDON, EVA	Universidad del País Vasco/Euskal Herriko Unibertsitatea	Profesorado Agregado	Doctora	No bilingüe	Teoría de la Señal y Comunicaciones	eva.navas@ehu.eus
SARATXAGA COUCEIRO, IBON	Universidad del País Vasco/Euskal Herriko Unibertsitatea	Profesorado Agregado	Doctor	Bilingüe	Ingeniería Telemática	ibon.saratxaga@ehu.eus

Competencias

Denominación	Peso
Comprender e interpretar los principales parámetros utilizados en la representación de la señal de voz.	25.0 %
Conocer las estrategias fundamentales empleadas en los sistemas de síntesis y de reconocimiento de la señal de voz.	25.0 %
Comprender la terminología empleada en el campo del tratamiento de la señal de voz, de forma que sea capaz de interpretar un trabajo de investigación descrito en una revista.	25.0 %
Manejar las herramientas informáticas básicas para el procesado y tratamiento de la señal de voz.	25.0 %

Tipos de docencia

Tipo	Horas presenciales	Horas no presenciales	Horas totales
Magistral	15	22.5	37.5
P. Ordenador	30	45	75

Actividades formativas

Denominación	Horas	Porcentaje de presencialidad
Clases magistrales	37.5	40 %
Prácticas con ordenador, laboratorio, salidas de campo, visitas externas	75.0	40 %

Sistemas de evaluación

Denominación	Ponderación mínima	Ponderación máxima
Examen tipo test	30.0 %	60.0 %
Exposiciones	20.0 %	40.0 %
Informes/Memoria de Prácticas	20.0 %	50.0 %

Resultados del aprendizaje de la asignatura

RA1 Demostrar comprensión de los problemas relacionados con el modelado acústico de la señal de voz,

RA2 Manejar herramientas de análisis y procesado de la señal de voz.

RA3 Demostrar comprensión sobre los sistemas de reconocimiento automático del habla, del hablante y de síntesis de voz, así como las técnicas utilizadas para la evaluación de los mismos.

RA4 Desarrollar un sistema básico de reconocimiento del habla.

RA5 Extraer información de un artículo científico y presentarla de forma oral a un público interdisciplinar e internacional.

Convocatoria ordinaria: orientaciones y renuncia

El sistema de evaluación se divide en tres bloques independientes: magistral, prácticas de laboratorio y exposición de un trabajo sobre una tecnología del habla.

La parte magistral se evalúa mediante una prueba individual escrita a partir de preguntas cortas y de elección múltiple (40%).

La parte de prácticas de laboratorio se evalúa mediante las memorias y el trabajo desempeñado en el laboratorio (40%).

La exposición del trabajo se evalúa con una nota sobre su presentación pública (20%).

En la convocatoria ordinaria deben superarse la prueba de la parte magistral con una nota mínima de 5 sobre 10, y para superar la asignatura debe obtenerse una nota final superior a 5 sobre 10 una vez agregadas todas las calificaciones. Cada bloque de evaluación es independiente y una vez superado un bloque la nota se guardará para sucesivas convocatorias.

RENUNCIA:

Las personas que no puedan seguir la evaluación mixta deberán justificar documentalmente sus causas al equipo docente, siguiendo el procedimiento establecido en la normativa vigente. Podrán acreditar el logro de los resultados de aprendizaje de la asignatura a través de una evaluación final que consistirá en: una prueba escrita (40% nota), una prueba de laboratorio (45% nota), y la presentación de un trabajo relacionado con una tecnología del habla (15% nota).

Si una persona no se presenta a la prueba escrita final se entenderá que esa persona ha renunciado a dicha convocatoria.

Convocatoria extraordinaria: orientaciones y renuncia

En la convocatoria extraordinaria se harán dos pruebas: una prueba del bloque magistral y una prueba del bloque de laboratorio. Cada prueba contará por el 50% de la nota final y deben superarse ambas con una nota mínima de 5 sobre 10.

Aquellos estudiantes que no hayan presentado escrito que justifique su no participación en la evaluación mixta deberán acreditar la adecuada realización de las prácticas.

Temario

1. Speech modelling

2. Speech synthesis

3. Speech recognition

4. Other speech technologies

Bibliografía

Materiales de uso obligatorio

Apuntes de la asignatura: magistrales y prácticas.

Bibliografía básica

* X. Huang, A. Acero, H. Hon. Spoken Language Processing: A Guide to Theory, Algorithm and System Development. Prentice Hall, 2001. (ISBN: 978-0130226167)

* D. Jurafsky, J. H. Martin. Speech and Language Processing (2nd edition). Prentice Hall, 2008. (ISBN: 978-0131873216)

* P. Taylor. Text-to-Speech Synthesis. Cambridge University Press, 2009. (ISBN: 978-0521899277)

* L. Rabiner, B. H. Juang. Fundamentals of Speech Recognition. CRC Press, 1993. (ISBN: 978-0130151575)

* D. Yu, L. Deng. Automatic Speech Recognition: A Deep Learning Approach. Springer, 2015. (ISBN: 978-1447157786)

* W. C. Chu. Speech Coding Algorithms: Foundation and Evolution of Standardized Coders. Wiley-Interscience, 2003. (ISBN: 978-0471373124)

Revistas

Computer Speech and Language

Speech Communication

IEEE Transactions on Audio Speech and Language Processing

IEEE Transactions on Multimedia

Enlaces

Página de voz en la CMU http://www.speech.cs.cmu.edu/

European Languages Resources Association (ELRA) http://www.elra.info/en/catalogues/

Linguistic Data Consortium (LDC) https://www.ldc.upenn.edu/language-resources

Smithsonian Speech Synthesis History Project (SSSHP) http://www.mindspring.com/~ssshp/ssshp_cd/ss_home.htm

Síntesis de habla emocional http://emosamples.syntheticspeech.de/

Visualización del menú

Barra de búsqueda

Máster Erasmus Mundus en Tecnologías del Lenguaje y la Comunicación (LCT)

Materia

Contenido de XSL

Tecnologías del Habla

Datos generales de la materia

Descripción y contextualización de la asignatura

Profesorado

Competencias

Tipos de docencia

Actividades formativas

Sistemas de evaluación

Resultados del aprendizaje de la asignatura

Convocatoria ordinaria: orientaciones y renuncia

Convocatoria extraordinaria: orientaciones y renuncia

Temario

Bibliografía

Materiales de uso obligatorio

Bibliografía básica

Revistas

Enlaces

Visualización del menú

Barra de búsqueda

Ruta de navegación

Materia

Contenido de XSL

Tecnologías del Habla

Datos generales de la materia

Descripción y contextualización de la asignatura

Profesorado

Competencias

Tipos de docencia

Actividades formativas

Sistemas de evaluación

Resultados del aprendizaje de la asignatura

Convocatoria ordinaria: orientaciones y renuncia

Convocatoria extraordinaria: orientaciones y renuncia

Temario

Bibliografía

Materiales de uso obligatorio

Bibliografía básica

Revistas

Enlaces