Contenido de XSL

Procesamiento de Voz

Centro: Facultad de Informática
Titulación: Grado en Inteligencia Artificial
Curso académico: 2023/24
Curso: 4
Nº Créditos: 6
Idiomas: Castellano

Distribución de horas por tipo de enseñanza
Tipo de docencia	Horas de docencia presencial	Horas de actividad no presencial del alumno/a
Magistral	40	60
P. Laboratorio	20	30

ObjetivosAlternar navegación

Los resultados de aprendizaje que la asignatura proporciona son los siguientes:

- Comprender los fundamentos del procesamiento de señales de voz.

- Conocer los principales algoritmos de pre-procesamiento y extracción de características aplicados a señales de voz.

- Conocer las diferentes técnicas de modelado empleadas para representar y codificar la señal de voz.

- Saber aplicar técnicas de aprendizaje automático al reconocimiento de voz.

- Conocer y saber aplicar diferentes estrategias o modelos de producción de voz para síntesis.

TemarioAlternar navegación

1- Producción y percepción

Fisiología, articulación y acústica de los sonidos vocales, percepción

2- Modelado y codificación

Acústica, modelos discretos, formantes, LPC

3- Análisis

Dominio temporal y frecuencial, extracción de características, coeficientes cepstrales

4- Síntesis

Concatenativa, por formantes

5- Reconocimiento

Métodos deterministas (DTW), estadísticos (HMMs), modelado del lenguaje

6- Otras aplicaciones

Mejora, transformación, reconocimiento del locutor, ...

MetodologíaAlternar navegación

Todos los temas se impartirán combinando clases magistrales y sesiones de laboratorio específicas al contenido tratado que tendrán un trabajo práctico asociado.

Sistemas de evaluaciónAlternar navegación

La asignatura tiene dos modos de evaluación:

a) Evaluación continua. Es el modo de evaluación predeterminado y se utilizará sólo en la convocatoria ordinaria.

Requiere participación activa y continua del alumnado: asistencia a las clases y laboratorios, entrega de ejercicios y trabajos, y realización de las correspondientes pruebas de evaluación, prácticas y presentaciones. En caso de no cumplir estas condiciones se pasará al modelo de evaluación global.

La evaluación consistirá en: pruebas escritas (40%), y trabajos prácticos desarrollados en grupos de 2 personas (60%). Para superar la asignatura es necesario aprobar por separado las dos partes. Se realizará una evaluación individual escrita que ponderará la nota global de la parte práctica.

El estudiantado que, cumpliendo las condiciones para continuar en el sistema de evaluación continua, decidiese optar por la evaluación global, deberá informar por escrito (email) al profesorado responsable de la asignatura.

Para renunciar a la convocatoria bastará con abandonar la evaluación continua antes de la finalización de la misma y no entregar alguno de los trabajos prácticos o no presentarse a alguna de las pruebas escritas.

b) Evaluación global (o de conjunto). En caso de no seguir la asignatura en evaluación continua se optará por este modelo de evaluación. El alumnado tendrá que entregar los trabajos prácticos con sus correspondientes informes técnicos al menos dos semanas antes de la fecha de convocatoria ordinaria. En este caso, el examen realizado en la fecha de convocatoria ordinaria tendrá un peso de 60% y la parte práctica (basada en los trabajos entregados previamente) un 40%. Para superar la asignatura es necesario aprobar por separado las dos partes.

Para renunciar a la convocatoria bastará con no presentarse al examen escrito.

Materiales de uso obligatorioAlternar navegación

Para el correcto desarrollo de la asignatura se requiere:

- un ordenador personal tipo PC,
- software específico para tratamiento de señal (MATLAB, etc.), para los laboratorios.

Ambos recursos son provistos por el centro. Además, el alumnado tiene la posibilidad de realizar los proyectos prácticos en sus propios ordenadores mediante la licencia corporativa de MATLAB de la UPV/EHU.

BibliografíaAlternar navegación

Bibliografía básica

L. Rabiner and R. W. Schafer: “Theory and Applications of Digital Speech Processing”. Pearson, 2011.

B. Gold, N. Morgan, D. Ellis: “Speech and audio signal processing, Processing and Perception of Speech and Music” 2nd Edition. Wiley, 2011.

D. O'Shaughnessy, “Speech Communications: Human and Machine” 2nd Ed. IEEE Press, 2000.

X. Huang, A. Acero, H.Hon, “Spoken Language Processing”. Prentice Hall, 2001

Bibliografía de profundización

T. F. Quatieri, “Discrete-Time Speech Signal Processing - Principles and Practice”. Pearson Education, 2001.
P. Taylor. “Text-to_speech Synthesis”. Cambridge University Press, 2009
C. Becchetti, L. P. Ricotti, “Speech Recognition”. John Wiley and Sons, 1999.
K. Sayood, “Introduction to Data Compression” 2nd Ed. Morgan Kaufmann, 2000.

Calendario
Semanas	Lunes	Martes	Miércoles	Jueves	Viernes
1-15	12:00-13:30			09:00-10:30

Profesorado

ARRUTI ILLARRAMENDI, ANTONIO

Calendario
Semanas	Lunes	Martes	Miércoles	Jueves	Viernes
1-15					10:30-12:00

Profesorado

ARRUTI ILLARRAMENDI, ANTONIO

Fecha de última modificación: 2023-09-09

Departamento de Arquitectura y Tecnología de Computadores

Barra de búsqueda

Contenido de XSL

Procesamiento de Voz

DocenciaAlternar navegación

Guía docenteAlternar navegación

ObjetivosAlternar navegación

TemarioAlternar navegación

MetodologíaAlternar navegación

Sistemas de evaluaciónAlternar navegación

Materiales de uso obligatorioAlternar navegación

BibliografíaAlternar navegación

Bibliografía básica

Bibliografía de profundización

GruposAlternar navegación

01 Teórico (Castellano - Mañana)Mostrar/ocultar subpáginas

Profesorado

01 P. Laboratorio-1 (Castellano - Mañana)Mostrar/ocultar subpáginas

Profesorado