XSL Content

Speech Processing28281

Centre
Faculty of Informatics
Degree
Grado en Inteligencia Artficial
Academic course
2023/24
Academic year
4
No. of credits
6
Languages
Spanish
Code
28281

TeachingToggle Navigation

Distribution of hours by type of teaching
Study typeHours of face-to-face teachingHours of non classroom-based work by the student
Lecture-based4060
Applied laboratory-based groups2030

Teaching guideToggle Navigation

Description and Contextualization of the SubjectToggle Navigation

Esta asignatura es una asignatura optativa de 4º curso del Grado en Inteligencia Artificial (impartida durante el primer cuatrimestre).



La asignatura está destinada a introducir al alumnado en los aspectos teóricos y prácticos necesarios para comprender y aplicar técnicas de Procesamiento de Voz. Por ello, la asignatura utiliza conceptos aprendidos en asignaturas previas de las áreas del procesado digital de señales y de la programación. Los estudiantes explorarán los conceptos básicos asociados a las señales de voz y aprenderán técnicas y algoritmos utilizados para su procesamiento, llevándolas a la práctica mediante ejercicios y proyectos.



Los objetivos fundamentales son:



- Presentar al alumnado los conceptos básicos relacionados con el Procesado de Voz: producción, percepción, modelado y análisis.



- Dar a conocer diferentes aplicaciones prácticas (Síntesis, Reconocimiento, …) de estas técnicas y alternativas para su implementación.



- Llevar a la práctica los conceptos estudiados, aplicándolos en el laboratorio a casos reales de procesamiento de señales utilizando la plataforma MATLAB.

Skills/Learning outcomes of the subjectToggle Navigation

Los resultados de aprendizaje que la asignatura proporciona son los siguientes:



- Comprender los fundamentos del procesamiento de señales de voz.



- Conocer los principales algoritmos de pre-procesamiento y extracción de características aplicados a señales de voz.



- Conocer las diferentes técnicas de modelado empleadas para representar y codificar la señal de voz.



- Saber aplicar técnicas de aprendizaje automático al reconocimiento de voz.



- Conocer y saber aplicar diferentes estrategias o modelos de producción de voz para síntesis.

Theoretical and practical contentToggle Navigation

1- Producción y percepción

Fisiología, articulación y acústica de los sonidos vocales, percepción



2- Modelado y codificación

Acústica, modelos discretos, formantes, LPC



3- Análisis

Dominio temporal y frecuencial, extracción de características, coeficientes cepstrales



4- Síntesis

Concatenativa, por formantes



5- Reconocimiento

Métodos deterministas (DTW), estadísticos (HMMs), modelado del lenguaje



6- Otras aplicaciones

Mejora, transformación, reconocimiento del locutor, …

MethodologyToggle Navigation

Todos los temas se impartirán combinando clases magistrales y sesiones de laboratorio específicas al contenido tratado que tendrán un trabajo práctico asociado.

Assessment systemsToggle Navigation

  • Continuous Assessment System
  • Final Assessment System
  • Tools and qualification percentages:
    • Los porcentajes y tipos de evaluación se especifican en los apartados posteriores (%): 100

Ordinary Call: Orientations and DisclaimerToggle Navigation

La asignatura tiene dos modos de evaluación:



a) Evaluación continua. Es el modo de evaluación predeterminado y se utilizará sólo en la convocatoria ordinaria.

Requiere participación activa y continua del alumnado: asistencia a las clases y laboratorios, entrega de ejercicios y trabajos, y realización de las correspondientes pruebas de evaluación, prácticas y presentaciones. En caso de no cumplir estas condiciones se pasará al modelo de evaluación global.

La evaluación consistirá en: pruebas escritas (40%), y trabajos prácticos desarrollados en grupos de 2 personas (60%). Para superar la asignatura es necesario aprobar por separado las dos partes. Se realizará una evaluación individual escrita que ponderará la nota global de la parte práctica.

El estudiantado que, cumpliendo las condiciones para continuar en el sistema de evaluación continua, decidiese optar por la evaluación global, deberá informar por escrito (email) al profesorado responsable de la asignatura.



Para renunciar a la convocatoria bastará con abandonar la evaluación continua antes de la finalización de la misma y no entregar alguno de los trabajos prácticos o no presentarse a alguna de las pruebas escritas.



b) Evaluación global (o de conjunto). En caso de no seguir la asignatura en evaluación continua se optará por este modelo de evaluación. El alumnado tendrá que entregar los trabajos prácticos con sus correspondientes informes técnicos al menos dos semanas antes de la fecha de convocatoria ordinaria. En este caso, el examen realizado en la fecha de convocatoria ordinaria tendrá un peso de 60% y la parte práctica (basada en los trabajos entregados previamente) un 40%. Para superar la asignatura es necesario aprobar por separado las dos partes.



Para renunciar a la convocatoria bastará con no presentarse al examen escrito.

Extraordinary Call: Orientations and DisclaimerToggle Navigation

Para el caso de la convocatoria extraordinaria la nota final se calcula en base a dos partes:



- Teoría (60%): Se evalúa mediante un examen de conocimientos.



- Práctica (40%): Se evalúa a partir de los trabajos con sus correspondientes informes técnicos de los proyectos específicos y final, que han de entregarse al menos dos semanas antes de la fecha de convocatoria extraordinaria.



Para superar la asignatura es necesario aprobar por separado las dos partes (teórica y práctica).

Compulsory materialsToggle Navigation

Para el correcto desarrollo de la asignatura se requiere:

- un ordenador personal tipo PC,
- software específico para tratamiento de señal (MATLAB, etc.), para los laboratorios.

Ambos recursos son provistos por el centro. Además, el alumnado tiene la posibilidad de realizar los proyectos prácticos en sus propios ordenadores mediante la licencia corporativa de MATLAB de la UPV/EHU.

BibliographyToggle Navigation

Basic bibliography

L. Rabiner and R. W. Schafer: “Theory and Applications of Digital Speech Processing”. Pearson, 2011.

B. Gold, N. Morgan, D. Ellis: “Speech and audio signal processing, Processing and Perception of Speech and Music” 2nd Edition. Wiley, 2011.

D. O'Shaughnessy, “Speech Communications: Human and Machine” 2nd Ed. IEEE Press, 2000.

X. Huang, A. Acero, H.Hon, “Spoken Language Processing”. Prentice Hall, 2001

In-depth bibliography

T. F. Quatieri, “Discrete-Time Speech Signal Processing – Principles and Practice”. Pearson Education, 2001.
P. Taylor. “Text-to_speech Synthesis”. Cambridge University Press, 2009
C. Becchetti, L. P. Ricotti, “Speech Recognition”. John Wiley and Sons, 1999.
K. Sayood, “Introduction to Data Compression” 2nd Ed. Morgan Kaufmann, 2000.

GroupsToggle Navigation

01 Teórico (Spanish - Mañana)Show/hide subpages

Calendar
WeeksMondayTuesdayWednesdayThursdayFriday
1-15

12:00-13:30 (1)

09:00-10:30 (2)

Teaching staff

01 Applied laboratory-based groups-1 (Spanish - Mañana)Show/hide subpages

Calendar
WeeksMondayTuesdayWednesdayThursdayFriday
1-15

10:30-12:00 (1)

Teaching staff