Materia
Tecnologías del habla
Datos generales de la materia
- Modalidad
- Presencial
- Idioma
- Castellano
Descripción y contextualización de la asignatura
La asignatura está concebida como una introducción general al campo de las tecnologías del habla, y pretende habilitar al estudiante para el desempeño profesional en este ámbito. Esto incluye los perfiles profesionales dedicados al diseño, desarrollo y comercialización de sistemas de diálogo, síntesis y reconocimiento de habla, sistemas de seguridad biométrica, etc. y los perfiles investigadores en procesado de voz. En la asignatura se utilizan conceptos básicos de procesado de señal impartidos en el grado de Ingeniería en Tecnología de Telecomunicación, principalmente en la asignatura básica de rama Tratamiento de Señales y en la asignatura Procesado de Señales Multimedia, asignatura optativa del módulo de Sistemas de Telecomunicación, en la que se estudian técnicas básicas de procesado de voz y audio, que serán analizadas con mayor profundidad en este curso. Además, la asignatura requiere conocimientos avanzados de procesado estadístico de señal y de predicción lineal, cubiertos en Tratamiento Avanzado de Señal en el primer curso de máster.En el caso de que las condiciones sanitarias impidan la realización de una actividad docente y/o evaluación presencial, se activará una modalidad no presencial de la que los/las estudiantes serán informados puntualmente.
Profesorado
Nombre | Institución | Categoría | Doctor/a | Perfil docente | Área | |
---|---|---|---|---|---|---|
NAVAS CORDON, EVA | Universidad del País Vasco/Euskal Herriko Unibertsitatea | Profesorado Agregado | Doctora | No bilingüe | Teoría de la Señal y Comunicaciones | eva.navas@ehu.eus |
Competencias
Denominación | Peso |
---|---|
Conocer e interpretar los procesos de generación y percepción de la voz humana. | 25.0 % |
Comprender e interpretar los principales parámetros utilizados en la representación de la señal de voz | 25.0 % |
Conocer las estrategias fundamentales empleadas en los sistemas de síntesis y de codificación de la señal de voz, manejando las herramientas informáticas básicas para el procesado y tratamiento de la señal de voz. | 25.0 % |
Comprender la terminología empleada en el campo del tratamiento de la señal de voz, de forma que sea capaz de interpretar un trabajo de investigación descrito en una revista | 25.0 % |
Tipos de docencia
Tipo | Horas presenciales | Horas no presenciales | Horas totales |
---|---|---|---|
Magistral | 22.5 | 33.8 | 56.2 |
P. Laboratorio | 22.5 | 33.8 | 56.2 |
Actividades formativas
Denominación | Horas | Porcentaje de presencialidad |
---|---|---|
Clases magistrales | 56.25 | 40 % |
Prácticas de laboratorio | 56.25 | 40 % |
Sistemas de evaluación
Denominación | Ponderación mínima | Ponderación máxima |
---|---|---|
Examen escrito | 30.0 % | 70.0 % |
Trabajos Prácticos | 30.0 % | 70.0 % |
Resultados del aprendizaje de la asignatura
Describir los procesos de generación y percepción de la señal de voz.Demostrar conocimientos sobre la representación temporal y frecuencial de la señal de voz y sobre las técnicas empleadas para su análisis.
Demostrar comprensión de los problemas relacionados con el modelado acústico de la señal de voz, el modelado del lenguaje, los sistemas de reconocimiento automático del habla, del hablante y de síntesis de voz, así como las técnicas utilizadas para la evaluación de los mismos.
Medir e interpretar los principales parámetros que caracterizan la señal de voz.
Implementar un codificador perceptual de voz.
Desarrollar un sistema básico de reconocimiento del habla.
Convocatoria ordinaria: orientaciones y renuncia
El sistema de evaluación se divide en tres bloques independientes, magistral, prácticas de laboratorio y trabajo práctico en grupo:- La parte magistral se evalúa mediante una prueba individual final con 20 preguntas de elección múltiple (40%).
- Las prácticas de laboratorio se evaluarán mediante las memorias y el trabajo desempeñado en el laboratorio (45%).
- El trabajo práctico grupo se evaluará con una nota de grupo evaluando el desarrollo del trabajo y su presentación (15%).
En la convocatoria ordinaria deben superarse la prueba final con una nota mínima de 4 sobre 10, y para superar la asignatura debe obtenerse una nota final superior a 5 sobre 10 una vez agregadas todas las calificaciones. Los bloques de magistral, laboratorio y trabajo práctico en grupo son independientes y una vez superado un bloque la nota se guardará para sucesivas convocatorias.
Aquellos estudiantes que no puedan seguir la evaluación mixta deberán justificar documentalmente sus causas (ajustadas a la normativa de gestión para las enseñanzas de grado) al equipo docente en las dos primeras semanas del curso, así como a la dirección de la escuela al menos un mes antes del inicio del periodo de exámenes. Podrán acreditar el logro de los resultados de aprendizaje de la asignatura a través de una evaluación final que consistirá en: prueba escrita (40% nota), una prueba de laboratorio (45% nota) y la presentación de un trabajo (15% nota).
Si un estudiante no se presenta a la prueba final se entenderá que ha renunciado a dicha convocatoria.
En el caso de que las condiciones sanitarias impidan la realización de una actividad docente y/o evaluación presencial, se activará una modalidad no presencial de la que los/las estudiantes serán informados puntualmente.
Convocatoria extraordinaria: orientaciones y renuncia
En la convocatoria extraordinaria se harán dos pruebas: una prueba del bloque magistral y una prueba del bloque de laboratorio. Cada prueba contará por el 50% de la nota final y deben superarse ambas con una nota mínima de 5 sobre 10.Aquellos estudiantes que hayan presentado escrito que justifique su no participación en la evaluación mixta deberán acreditar la adecuada realización de las prácticas.
En el caso de que las condiciones sanitarias impidan la realización de una actividad docente y/o evaluación presencial, se activará una modalidad no presencial de la que los/las estudiantes serán informados puntualmente.
Temario
Tema 1 Introducción a las tecnologías del hablaTema 2 Generación y percepción de la señal de voz
Tema 3 Técnicas avanzadas de procesado digital de la señal de voz
Tema 4 Codificación de voz
Tema 5 Introducción al reconocimiento automático del habla y del hablante
Tema 6 Conversión de texto en habla
Bibliografía
Materiales de uso obligatorio
Los estudiantes dispondrán en eGela (http://egela.ehu.eus/) de los siguientes materialesdocentes necesarios para el desarrollo de la asignatura:
- Transparencias con el contenido teórico de la asignatura, temas T1-T6.
- Guión de prácticas, un fichero por práctica con introducción teórica.
- Señales necesarias, programas de matlab, scripts de linux y otras herramientas necesarias
para el desarrollo de las prácticas.
- Documentos para la realización de trabajo de grupo.
Bibliografía básica
- J. G. Proakis, D. G. Manolakis. Digital signal processing. Principles, algorithms andapplications (4th edition). Pearson Prentice Hall, 2007. (ISBN: 978-0131873742)
- L. R. Rabiner, R. W. Schafer. Digital processing of speech signal. Prentice-Hall, 1978.
(ISBN: 978-0132136037)
- X. Huang, A. Acero, H. Hon. Spoken Language Processing: A Guide to Theory, Algorithm
and System Development. Prentice Hall, 2001. (ISBN: 978-0130226167)
- A. V. Oppenheim, R. W. Schafer. Discrete-Time signal processing (3rd edition). Pearson
Prentice Hall, 2009. (ISBN: 978-0131988422)
- D. Jurafsky, J. H. Martin. Speech and Language Processing (2nd edition). Prentice Hall,
2008. (ISBN: 978-0131873216)
Bibliografía de profundización
- P. Taylor. Text-to-Speech Synthesis. Cambridge University Press, 2009. (ISBN:978-0521899277)
- L. Rabiner, B. H. Juang. Fundamentals of Speech Recognition. CRC Press, 1993. (ISBN:
978-0130151575)
- D. Yu, L. Deng. Automatic Speech Recognition: A Deep Learning Approach. Springer,
2015. (ISBN: 978-1447157786)
- W. C. Chu. Speech Coding Algorithms: Foundation and Evolution of Standardized
Coders. Wiley-Interscience, 2003. (ISBN: 978-0471373124)
Revistas
Computer Speech and LanguageSpeech Communication
IEEE Transactions on Audio, Speech & Language Processing
IEEE Transactions on Systems, Man and Cybernetics-Part B
IEEE Transactions on Multimedia
Journal of the Acoustical Society of America
Enlaces
- Speech Technologieshttp://www.speech.cs.cmu.edu/
http://festvox.org/
- Review of Speech Synthesis Technology
http://www.acoustics.hut.fi/publications/files/theses/lemmetty_mst/contents.html
- Speech Technology Hyperlinks Page
http://www.speech.cs.cmu.edu/comp.speech/Section5/speechlinks.html
- Smithsonian Speech Synthesis History Project (SSSHP)
https://amhistory.si.edu/archives/speechsynthesis/ss_home.htm
- Demos de sistemas TTS
https://www.acapela-group.com/demos/
https://www.nuance.com/omni-channel-customer-engagement/voice-and-ivr/text-to-speech.html
http://www.cepstral.com/en/demos
https://cloud.google.com/text-to-speech
http://aholab.ehu.eus/tts
- Demos de sistemas ASR
https://speech-to-text-demo.ng.bluemix.net/
https://www.google.com/intl/en/chrome/demos/speech.html