Materia

Contenido de XSL

Tecnologías del habla

Datos generales de la materia

Modalidad
Presencial
Idioma
Castellano

Descripción y contextualización de la asignatura

La asignatura está concebida como una introducción general al campo de las tecnologías del habla, y pretende habilitar al estudiante para el desempeño profesional en este ámbito. Esto incluye los perfiles profesionales dedicados al diseño, desarrollo y comercialización de sistemas de diálogo, síntesis y reconocimiento de habla, sistemas de seguridad biométrica, etc. y los perfiles investigadores en procesado de voz. En la asignatura se utilizan conceptos básicos de procesado de señal impartidos en el grado de Ingeniería en Tecnología de Telecomunicación, principalmente en la asignatura básica de rama Tratamiento de Señales y en la asignatura Procesado de Señales Multimedia, asignatura optativa del módulo de Sistemas de Telecomunicación, en la que se estudian técnicas básicas de procesado de voz y audio, que serán analizadas con mayor profundidad en este curso. Además, la asignatura requiere conocimientos avanzados de procesado estadístico de señal y de predicción lineal, cubiertos en Tratamiento Avanzado de Señal en el primer curso de máster.

En el caso de que las condiciones sanitarias impidan la realización de una actividad docente y/o evaluación presencial, se activará una modalidad no presencial de la que los/las estudiantes serán informados puntualmente.

Profesorado

NombreInstituciónCategoríaDoctor/aPerfil docenteÁreaEmail
NAVAS CORDON, EVAUniversidad del País Vasco/Euskal Herriko UnibertsitateaProfesorado AgregadoDoctoraNo bilingüeTeoría de la Señal y Comunicacioneseva.navas@ehu.eus

Competencias

DenominaciónPeso
Conocer e interpretar los procesos de generación y percepción de la voz humana.25.0 %
Comprender e interpretar los principales parámetros utilizados en la representación de la señal de voz25.0 %
Conocer las estrategias fundamentales empleadas en los sistemas de síntesis y de codificación de la señal de voz, manejando las herramientas informáticas básicas para el procesado y tratamiento de la señal de voz.25.0 %
Comprender la terminología empleada en el campo del tratamiento de la señal de voz, de forma que sea capaz de interpretar un trabajo de investigación descrito en una revista25.0 %

Tipos de docencia

TipoHoras presencialesHoras no presencialesHoras totales
Magistral22.533.856.2
P. Laboratorio22.533.856.2

Actividades formativas

DenominaciónHorasPorcentaje de presencialidad
Clases magistrales56.2540 %
Prácticas de laboratorio56.2540 %

Sistemas de evaluación

DenominaciónPonderación mínimaPonderación máxima
Examen escrito30.0 % 70.0 %
Trabajos Prácticos30.0 % 70.0 %

Resultados del aprendizaje de la asignatura

Describir los procesos de generación y percepción de la señal de voz.

Demostrar conocimientos sobre la representación temporal y frecuencial de la señal de voz y sobre las técnicas empleadas para su análisis.

Demostrar comprensión de los problemas relacionados con el modelado acústico de la señal de voz, el modelado del lenguaje, los sistemas de reconocimiento automático del habla, del hablante y de síntesis de voz, así como las técnicas utilizadas para la evaluación de los mismos.

Medir e interpretar los principales parámetros que caracterizan la señal de voz.

Implementar un codificador perceptual de voz.

Desarrollar un sistema básico de reconocimiento del habla.

Convocatoria ordinaria: orientaciones y renuncia

El sistema de evaluación se divide en tres bloques independientes, magistral, prácticas de laboratorio y trabajo práctico en grupo:

- La parte magistral se evalúa mediante una prueba individual final con 20 preguntas de elección múltiple (40%).

- Las prácticas de laboratorio se evaluarán mediante las memorias y el trabajo desempeñado en el laboratorio (45%).

- El trabajo práctico grupo se evaluará con una nota de grupo evaluando el desarrollo del trabajo y su presentación (15%).



En la convocatoria ordinaria deben superarse la prueba final con una nota mínima de 4 sobre 10, y para superar la asignatura debe obtenerse una nota final superior a 5 sobre 10 una vez agregadas todas las calificaciones. Los bloques de magistral, laboratorio y trabajo práctico en grupo son independientes y una vez superado un bloque la nota se guardará para sucesivas convocatorias.



Aquellos estudiantes que no puedan seguir la evaluación mixta deberán justificar documentalmente sus causas (ajustadas a la normativa de gestión para las enseñanzas de grado) al equipo docente en las dos primeras semanas del curso, así como a la dirección de la escuela al menos un mes antes del inicio del periodo de exámenes. Podrán acreditar el logro de los resultados de aprendizaje de la asignatura a través de una evaluación final que consistirá en: prueba escrita (40% nota), una prueba de laboratorio (45% nota) y la presentación de un trabajo (15% nota).



Si un estudiante no se presenta a la prueba final se entenderá que ha renunciado a dicha convocatoria.



En el caso de que las condiciones sanitarias impidan la realización de una actividad docente y/o evaluación presencial, se activará una modalidad no presencial de la que los/las estudiantes serán informados puntualmente.

Convocatoria extraordinaria: orientaciones y renuncia

En la convocatoria extraordinaria se harán dos pruebas: una prueba del bloque magistral y una prueba del bloque de laboratorio. Cada prueba contará por el 50% de la nota final y deben superarse ambas con una nota mínima de 5 sobre 10.

Aquellos estudiantes que hayan presentado escrito que justifique su no participación en la evaluación mixta deberán acreditar la adecuada realización de las prácticas.



En el caso de que las condiciones sanitarias impidan la realización de una actividad docente y/o evaluación presencial, se activará una modalidad no presencial de la que los/las estudiantes serán informados puntualmente.

Temario

Tema 1 Introducción a las tecnologías del habla

Tema 2 Generación y percepción de la señal de voz

Tema 3 Técnicas avanzadas de procesado digital de la señal de voz

Tema 4 Codificación de voz

Tema 5 Introducción al reconocimiento automático del habla y del hablante

Tema 6 Conversión de texto en habla

Bibliografía

Materiales de uso obligatorio

Los estudiantes dispondrán en eGela (http://egela.ehu.eus/) de los siguientes materiales



docentes necesarios para el desarrollo de la asignatura:



- Transparencias con el contenido teórico de la asignatura, temas T1-T6.



- Guión de prácticas, un fichero por práctica con introducción teórica.



- Señales necesarias, programas de matlab, scripts de linux y otras herramientas necesarias



para el desarrollo de las prácticas.



- Documentos para la realización de trabajo de grupo.

Bibliografía básica

- J. G. Proakis, D. G. Manolakis. Digital signal processing. Principles, algorithms and

applications (4th edition). Pearson Prentice Hall, 2007. (ISBN: 978-0131873742)

- L. R. Rabiner, R. W. Schafer. Digital processing of speech signal. Prentice-Hall, 1978.

(ISBN: 978-0132136037)

- X. Huang, A. Acero, H. Hon. Spoken Language Processing: A Guide to Theory, Algorithm

and System Development. Prentice Hall, 2001. (ISBN: 978-0130226167)

- A. V. Oppenheim, R. W. Schafer. Discrete-Time signal processing (3rd edition). Pearson

Prentice Hall, 2009. (ISBN: 978-0131988422)

- D. Jurafsky, J. H. Martin. Speech and Language Processing (2nd edition). Prentice Hall,

2008. (ISBN: 978-0131873216)

Bibliografía de profundización

- P. Taylor. Text-to-Speech Synthesis. Cambridge University Press, 2009. (ISBN:



978-0521899277)



- L. Rabiner, B. H. Juang. Fundamentals of Speech Recognition. CRC Press, 1993. (ISBN:



978-0130151575)



- D. Yu, L. Deng. Automatic Speech Recognition: A Deep Learning Approach. Springer,



2015. (ISBN: 978-1447157786)



- W. C. Chu. Speech Coding Algorithms: Foundation and Evolution of Standardized



Coders. Wiley-Interscience, 2003. (ISBN: 978-0471373124)



Revistas

Computer Speech and Language



Speech Communication



IEEE Transactions on Audio, Speech & Language Processing



IEEE Transactions on Systems, Man and Cybernetics-Part B



IEEE Transactions on Multimedia



Journal of the Acoustical Society of America











Enlaces

- Speech Technologies



http://www.speech.cs.cmu.edu/



http://festvox.org/



- Review of Speech Synthesis Technology



http://www.acoustics.hut.fi/publications/files/theses/lemmetty_mst/contents.html



- Speech Technology Hyperlinks Page



http://www.speech.cs.cmu.edu/comp.speech/Section5/speechlinks.html



- Smithsonian Speech Synthesis History Project (SSSHP)



https://amhistory.si.edu/archives/speechsynthesis/ss_home.htm



- Demos de sistemas TTS



https://www.acapela-group.com/demos/



https://www.nuance.com/omni-channel-customer-engagement/voice-and-ivr/text-to-speech.html



http://www.cepstral.com/en/demos



https://cloud.google.com/text-to-speech



http://aholab.ehu.eus/tts



- Demos de sistemas ASR



https://speech-to-text-demo.ng.bluemix.net/



https://www.google.com/intl/en/chrome/demos/speech.html







Contenido de XSL

Sugerencias y solicitudes