Materia

Contenido de XSL

Tecnologías del habla

Datos generales de la materia

Modalidad: Presencial
Idioma: Castellano

Descripción y contextualización de la asignatura

La asignatura está concebida como una introducción general al campo de las tecnologías del habla, y pretende habilitar al estudiante para el desempeño profesional en este ámbito. Esto incluye los perfiles profesionales dedicados al diseño, desarrollo y comercialización de sistemas de diálogo, síntesis y reconocimiento de habla, sistemas de seguridad biométrica, etc. y los perfiles investigadores en procesado de voz. En la asignatura se utilizan conceptos básicos de procesado de señal impartidos en el grado de Ingeniería en Tecnología de Telecomunicación, principalmente en la asignatura básica de rama Tratamiento de Señales y en la asignatura Procesado de Señales Multimedia, asignatura optativa del módulo de Sistemas de Telecomunicación, en la que se estudian técnicas básicas de procesado de voz y audio, que serán analizadas con mayor profundidad en este curso. Además, la asignatura requiere conocimientos avanzados de procesado estadístico de señal y de predicción lineal, cubiertos en Tratamiento Avanzado de Señal en el primer curso de máster.

En el caso de que las condiciones sanitarias impidan la realización de una actividad docente y/o evaluación presencial, se activará una modalidad no presencial de la que los/las estudiantes serán informados puntualmente.

Profesorado

Nombre	Institución	Categoría	Doctor/a	Perfil docente	Área	Email
NAVAS CORDON, EVA	Universidad del País Vasco/Euskal Herriko Unibertsitatea	Profesorado Agregado	Doctora	No bilingüe	Teoría de la Señal y Comunicaciones	eva.navas@ehu.eus

Competencias

Denominación	Peso
Conocer e interpretar los procesos de generación y percepción de la voz humana.	25.0 %
Comprender e interpretar los principales parámetros utilizados en la representación de la señal de voz	25.0 %
Conocer las estrategias fundamentales empleadas en los sistemas de síntesis y de codificación de la señal de voz, manejando las herramientas informáticas básicas para el procesado y tratamiento de la señal de voz.	25.0 %
Comprender la terminología empleada en el campo del tratamiento de la señal de voz, de forma que sea capaz de interpretar un trabajo de investigación descrito en una revista	25.0 %

Tipos de docencia

Tipo	Horas presenciales	Horas no presenciales	Horas totales
Magistral	22.5	33.8	56.2
P. Laboratorio	22.5	33.8	56.2

Actividades formativas

Denominación	Horas	Porcentaje de presencialidad
Clases magistrales	56.25	40 %
Prácticas de laboratorio	56.25	40 %

Sistemas de evaluación

Denominación	Ponderación mínima	Ponderación máxima
Examen escrito	30.0 %	70.0 %
Trabajos Prácticos	30.0 %	70.0 %

Resultados del aprendizaje de la asignatura

Describir los procesos de generación y percepción de la señal de voz.

Demostrar conocimientos sobre la representación temporal y frecuencial de la señal de voz y sobre las técnicas empleadas para su análisis.

Demostrar comprensión de los problemas relacionados con el modelado acústico de la señal de voz, el modelado del lenguaje, los sistemas de reconocimiento automático del habla, del hablante y de síntesis de voz, así como las técnicas utilizadas para la evaluación de los mismos.

Medir e interpretar los principales parámetros que caracterizan la señal de voz.

Implementar un codificador perceptual de voz.

Desarrollar un sistema básico de reconocimiento del habla.

Convocatoria ordinaria: orientaciones y renuncia

El sistema de evaluación se divide en tres bloques independientes, magistral, prácticas de laboratorio y trabajo práctico en grupo:

- La parte magistral se evalúa mediante una prueba individual final con 20 preguntas de elección múltiple (40%).

- Las prácticas de laboratorio se evaluarán mediante las memorias y el trabajo desempeñado en el laboratorio (45%).

- El trabajo práctico grupo se evaluará con una nota de grupo evaluando el desarrollo del trabajo y su presentación (15%).

En la convocatoria ordinaria deben superarse la prueba final con una nota mínima de 4 sobre 10, y para superar la asignatura debe obtenerse una nota final superior a 5 sobre 10 una vez agregadas todas las calificaciones. Los bloques de magistral, laboratorio y trabajo práctico en grupo son independientes y una vez superado un bloque la nota se guardará para sucesivas convocatorias.

Aquellos estudiantes que no puedan seguir la evaluación mixta deberán justificar documentalmente sus causas (ajustadas a la normativa de gestión para las enseñanzas de grado) al equipo docente en las dos primeras semanas del curso, así como a la dirección de la escuela al menos un mes antes del inicio del periodo de exámenes. Podrán acreditar el logro de los resultados de aprendizaje de la asignatura a través de una evaluación final que consistirá en: prueba escrita (40% nota), una prueba de laboratorio (45% nota) y la presentación de un trabajo (15% nota).

Si un estudiante no se presenta a la prueba final se entenderá que ha renunciado a dicha convocatoria.

En el caso de que las condiciones sanitarias impidan la realización de una actividad docente y/o evaluación presencial, se activará una modalidad no presencial de la que los/las estudiantes serán informados puntualmente.

Convocatoria extraordinaria: orientaciones y renuncia

En la convocatoria extraordinaria se harán dos pruebas: una prueba del bloque magistral y una prueba del bloque de laboratorio. Cada prueba contará por el 50% de la nota final y deben superarse ambas con una nota mínima de 5 sobre 10.

Aquellos estudiantes que hayan presentado escrito que justifique su no participación en la evaluación mixta deberán acreditar la adecuada realización de las prácticas.

En el caso de que las condiciones sanitarias impidan la realización de una actividad docente y/o evaluación presencial, se activará una modalidad no presencial de la que los/las estudiantes serán informados puntualmente.

Temario

Tema 1 Introducción a las tecnologías del habla

Tema 2 Generación y percepción de la señal de voz

Tema 3 Técnicas avanzadas de procesado digital de la señal de voz

Tema 4 Codificación de voz

Tema 5 Introducción al reconocimiento automático del habla y del hablante

Tema 6 Conversión de texto en habla

Bibliografía

Materiales de uso obligatorio

Los estudiantes dispondrán en eGela (http://egela.ehu.eus/) de los siguientes materiales

docentes necesarios para el desarrollo de la asignatura:

- Transparencias con el contenido teórico de la asignatura, temas T1-T6.

- Guión de prácticas, un fichero por práctica con introducción teórica.

- Señales necesarias, programas de matlab, scripts de linux y otras herramientas necesarias

para el desarrollo de las prácticas.

- Documentos para la realización de trabajo de grupo.

Bibliografía básica

- J. G. Proakis, D. G. Manolakis. Digital signal processing. Principles, algorithms and

applications (4th edition). Pearson Prentice Hall, 2007. (ISBN: 978-0131873742)

- L. R. Rabiner, R. W. Schafer. Digital processing of speech signal. Prentice-Hall, 1978.

(ISBN: 978-0132136037)

- X. Huang, A. Acero, H. Hon. Spoken Language Processing: A Guide to Theory, Algorithm

and System Development. Prentice Hall, 2001. (ISBN: 978-0130226167)

- A. V. Oppenheim, R. W. Schafer. Discrete-Time signal processing (3rd edition). Pearson

Prentice Hall, 2009. (ISBN: 978-0131988422)

- D. Jurafsky, J. H. Martin. Speech and Language Processing (2nd edition). Prentice Hall,

2008. (ISBN: 978-0131873216)

Bibliografía de profundización

- P. Taylor. Text-to-Speech Synthesis. Cambridge University Press, 2009. (ISBN:

978-0521899277)

- L. Rabiner, B. H. Juang. Fundamentals of Speech Recognition. CRC Press, 1993. (ISBN:

978-0130151575)

- D. Yu, L. Deng. Automatic Speech Recognition: A Deep Learning Approach. Springer,

2015. (ISBN: 978-1447157786)

- W. C. Chu. Speech Coding Algorithms: Foundation and Evolution of Standardized

Coders. Wiley-Interscience, 2003. (ISBN: 978-0471373124)

Revistas

Computer Speech and Language

Speech Communication

IEEE Transactions on Audio, Speech & Language Processing

IEEE Transactions on Systems, Man and Cybernetics-Part B

IEEE Transactions on Multimedia

Journal of the Acoustical Society of America

Enlaces

- Speech Technologies

http://www.speech.cs.cmu.edu/

http://festvox.org/

- Review of Speech Synthesis Technology

http://www.acoustics.hut.fi/publications/files/theses/lemmetty_mst/contents.html

- Speech Technology Hyperlinks Page

http://www.speech.cs.cmu.edu/comp.speech/Section5/speechlinks.html

- Smithsonian Speech Synthesis History Project (SSSHP)

https://amhistory.si.edu/archives/speechsynthesis/ss_home.htm

- Demos de sistemas TTS

https://www.acapela-group.com/demos/

https://www.nuance.com/omni-channel-customer-engagement/voice-and-ivr/text-to-speech.html

http://www.cepstral.com/en/demos

https://cloud.google.com/text-to-speech

http://aholab.ehu.eus/tts

- Demos de sistemas ASR

https://speech-to-text-demo.ng.bluemix.net/

https://www.google.com/intl/en/chrome/demos/speech.html

Contenido de XSL

Sugerencias y solicitudes

Barra de búsqueda

Máster en Ingeniería de Telecomunicación

Materia

Contenido de XSL

Tecnologías del habla

Datos generales de la materia

Descripción y contextualización de la asignatura

Profesorado

Competencias

Tipos de docencia

Actividades formativas

Sistemas de evaluación

Resultados del aprendizaje de la asignatura

Convocatoria ordinaria: orientaciones y renuncia

Convocatoria extraordinaria: orientaciones y renuncia

Temario

Bibliografía

Materiales de uso obligatorio

Bibliografía básica

Bibliografía de profundización

Revistas

Enlaces

Contenido de XSL

Barra de búsqueda

Ruta de navegación

Materia

Contenido de XSL

Tecnologías del habla

Datos generales de la materia

Descripción y contextualización de la asignatura

Profesorado

Competencias

Tipos de docencia

Actividades formativas

Sistemas de evaluación

Resultados del aprendizaje de la asignatura

Convocatoria ordinaria: orientaciones y renuncia

Convocatoria extraordinaria: orientaciones y renuncia

Temario

Bibliografía

Materiales de uso obligatorio

Bibliografía básica

Bibliografía de profundización

Revistas

Enlaces

Contenido de XSL