Contenido de XSL

Minería de Datos

Centro
Facultad de Informática
Titulación
Grado en Ingeniería Informática
Curso académico
2022/23
Curso
X
Nº Créditos
6
Idiomas
Castellano
Euskera

DocenciaAlternar navegación

Distribución de horas por tipo de enseñanza
Tipo de docenciaHoras de docencia presencialHoras de actividad no presencial del alumno/a
Magistral4060
P. Laboratorio2030

Guía docenteAlternar navegación

ObjetivosAlternar navegación

Resultados del aprendizaje:

- comprensión principales técnicas para aprender modelos de clasificación supervisada

- comprensión principales técnicas para aprender modelos de clasificación no-supervisada

- comprensión principales técnicas de evaluación de modelos supervisados

- destreza en el manejo de tecnologías para aprender y evaluar clasificadores supervisados





El alumnado estudiará las principales (y más comunes) técnicas de la minería de datos, así como adquirirá destreza en el uso de paquetes de software libre que implementan dichas técnicas. Todo ello irá enlazado con el estudio y demostración de aplicaciones reales de dichas técnicas. El uso de textos escritos en inglés para la adquisición del vocabulario internacional básico de la minería de datos, será una constante en la formación del alumno.









TemarioAlternar navegación

1. Introducción a la minería de datos

Una introducción a la minería de datos, centrándola en las aplicaciones y casos de éxito, más que en los algoritmos y técnicas concretas. Todo ello relacionando a la minería de datos como una disciplina dentro de la inteligencia artificial



2. Clasificadores basados en distancias: El clasificador del vecino más próximo (k-nearest neighbour)

La intuitiva mecánica de este clásico método de la minería de datos lo hace apropiado para ser la primera técnica de clasificación supervisada que se le presente al alumno. Se estudiará su funcionamiento básico, así como sus principales variantes y parámetros de uso. Nos adentraremos en las siguientes aplicaciones de este tipo de clasificadores: sistemas de recomendación ("recommender systems"), reconocimiento de caracteres y de caras ("object character recognition" y "face recognition").



3. Técnicas de evaluación y validación de clasificadores

Estudio de las principales técnicas de evaluación de clasificadores, haciendo especial hincapié en los métodos de clasificación supervisada y la estimación de la tasa de acierto. Introducción a los tests estadísticos principales para la comparación entre distintos clasificadores



4. Árboles de clasificación y reglas de decisión

Estudio de estos dos clásicos algoritmos de análisis de datos, inspirados en la filosofía del divide y vencerás. Se hará hincapié en la transparencia y simplicidad de sus modelos finales, y las posibilidades que esto abre para la interacción con expertos de otros campos. Se detallarán distintas posibilidades de desarrollo (grow) y poda (pruning).



5. Clasificadores basados en redes Bayesianas

Estudio de la teoría básica subyacente al Teorema de Bayes, relacionándolo con las posibilidades que ello ha abierto para proponer distintos clasificadores supervisados basados en redes Bayesianas. Se detallarán modelos de clasificación de distinta complejidad. Nos adentraremos en las siguientes aplicaciones de este tipo de clasificadores: modelos de diagnóstico y pronóstico en medicina ("medicina basada en la evidencia", "medicina computacional").





6. Combinación de clasificadores

Estudio de las distintas técnicas para la combinación de clasificadores. Se hará hincapié en las bondades del consensuado de clasificadores, en contraposición al uso de un clasificador único



7. Técnicas de selección de variables

Estudio de los conceptos y técnicas básicas de selección de variables, tanto desde el punto de vista univariado como multivariado. Nos adentraremos en las siguientes aplicaciones de este tipo de técnicas: genes más relevantes en una dolencia (novedosa área de la bioinformática).



8. Clasificación no-supervisada (clustering)

Estudio de las principales técnicas de clasificación no-supervisada. Se hará hincapié en las especiales características de este tipo de problemas, diferenciándolos de los problemas supervisados. Veremos ejemplos prácticos del siguiente tipo: segmentación de imágenes, grupos de alimentos en base a sus características nutricionales, segmentación de clientes y marketing y publicidad dirigida.



9. Introducción a los heurísticos de búsqueda y los algoritmos genéticos

Se realizará una introducción a otra disciplina clave de la inteligencia artificial como los heurísticos de búsqueda. Estudio de la técnica de búsqueda más conocida, los algoritmos genéticos. Se estudiarán su utilidad para la resolución de problemas de selección de variables. Veremos los siguientes ejemplos prácticos: distintos problemas de diseño (aviones, mecanos), composición de partituras musicales, problema del agente viajero.

Este breve tema también os puede servir para decidir si os matriculáis en la posterior asignatura optativa de "Heurísticos de Búsqueda"



10. Introducción a las redes neuronales

Las redes neuronales fueron uno de los métodos inspiradores de la inteligencia artificial en la década de los 80. Sus aplicaciones, tanto en clasificación supervisada como no-supervisada, fueron pioneras y abrieron potentes ideas y caminos. Sus altas necesidades de cómputo hicieron decaer su utilización desde principios de siglo. Durante los últimos años, las amplias capacidades de cómputo y nuevos desarrollos metodológicos bajo el paraguas del término "deep learning", las han vuelto a poner bajo la atención de la comunidad del análisis de datos. Sirva esta introducción para adentrarnos en ellas bajo el prisma de la clasificación supervisada, y para decidir si os matriculáis en la posterior asignatura optativa de "Machine Learning and Neural Networks"

MetodologíaAlternar navegación

La semana se divide en tres módulos-clases. En dos de ellos se impartirán clases magistrales: presentación de la teoría básica y ejercicios a mano. Una tercera clase servirá para utilizar e implementar los conceptos vistos en laboratorio, con ordenador.



La asignatura está dividida en dos apartados: con un 66% de clases teóricas y para la resolución de ejercicios sin ordenador, y el otro 33% para el desarrollo de laboratorios prácticos con software específico de análisis de datos en el cual se trabajarán las técnicas expuestas en las clases teóricas. En ambas partes se utilizará una metodología de enseñanza activa, por lo que se le pedirá al alumnado su participación, de manera activa, tantos en las clases en aula como en los laboratorios. Se impulsará el trabajo autónomo del alumnado.









Sistemas de evaluaciónAlternar navegación

Hay dos maneras de aprobar la asignatura: formato de evaluación global (la detallamos en la última frase de esta sección) o evaluación continua (detallada en los siguientes párrafos).



La evaluación continua es voluntaria, y exige la participación activa del alumno. Por lo tanto, el alumno debe asistir a clase y tomar parte activa en ellas mediante las actividades allí propuestas (ejercicios, trabajos, prácticas, presentaciones, etc.).



Acompasados al ritmo de los temas en las clases teóricas y los conceptos vistos en éstas, el alumnado desarrollará de manera individual distintos trabajos prácticos. Éstos serán presentados en los laboratorios de la asignatura, y realizados de manera parcial en ellas. Se realizarán entrevistas personales con el profesor de la asignatura acerca de los trabajos prácticos realizados por cada alumno y la verificación de estos trabajos.



Se realizará un examen teórico parcial durante el cuatrimestre que cubrirá 3'5 puntos (de los 6 de la nota de teoría). En caso de una calificación satisfactoria en éste, el examen final para el alumno cubrirá los 2'5 puntos restantes (en este último será necesario al menos obtener 1 punto para poder superar la asignatura). En caso de calificación deficiente en el examen teórico parcial, el examen teórico final cubrirá la totalidad de los 6 puntos de la teoría.



La preinscripción en el modo de evaluación continua se realizará en las fechas establecidas. La preinscripción pasará a ser definitiva tras la confirmación de la solicitud por parte del estudiante en las fechas que se establezcan (entre el 60% y el 80% del curso) y previa verificación del rendimiento parcial por parte del profesorado. Si en las mencionadas fechas el/la alumno/a no confirma su inscripción definitiva en evaluación continua se entenderá que renuncia a la misma.



A modo de resumen, la forma de evaluación continua está compuesta por: evaluación de trabajos escritos desarrollados en los laboratorios (40%), dos exámenes parciales (60%).



Por otro lado, la evaluación global consiste en: 100%, examen teórico junto con la entrega obligatoria de trabajos prácticos. Peso del examen teórico, 60%. Peso de los trabajos prácticos, 40%. Misma ponderación que en la evaluación continua.



Para aprobar la asignatura, es necesario aprobar ambas partes: teórica y práctica.



Materiales de uso obligatorioAlternar navegación

Se utilizará la plataforma eGela para llevar al día la asignatura, colgando en la plataforma tanto el material teórico como el de los laboratorios, así como otros items de la asignatura (enlaces de Internet, calificaciones de las distintas pruebas, etc.)

BibliografíaAlternar navegación

Bibliografía básica

- L. Gatto (2020). An Introduction to Machine Learning with R. https://github.com/lgatto/IntroMachineLearningWithR/

- H. Wickham, G. Grolemund (2017). R para Ciencia de Datos. https://es.r4ds.hadley.nz/

- I. H. Witten, E. Frank (2011). Data Mining. Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann. (Third edition)

- B. Sierra (ed.) (2006). Aprendizaje Automático: conceptos básicos y avanzados. Prentice Hall.

- E. Alpaydin (2004). Introduction to Machine Learning. MIT Press.

- T. Mitchell (1997). Machine Learning. McGraw Hill.

- J. Han, M. Kamber (2006). Data Mining: concept and techniques. Morgan Kaufmann. (Second edition)

Bibliografía de profundización

- O. Pourret, P. Naïm, B. Marcot (2008). Bayesian networks: a practical guide to applications. Wiley.
- L.I. Kuncheva (2004). Combining Pattern Classifiers. Wiley.
- H. Liu, H. Motoda (ed.) (2008). Computational Methods of Feature Selection. Chapman & Hall/CRC.
- C.M. Bishop (2006). Pattern Recognition and Machine Learning. Springer.
- S. Brunak, P. Baldi (2001). Bioinformatics: the machine learning approach. MIT Press. (Second edition).
- B. Liu (2006). Web Data Mining: exploring hyperlink, contents and usage data. Springer.

Revistas

- Machine Learning Journal. Springer.
- Journal of Machine Learning Research. Electronic publication.
- Data Mining and Knowledge Discovery. Springer.
- Bioinformatics. Oxford University Press.

Tribunal de convocatorias 5ª, 6ª y excepcionalAlternar navegación

  • AZCUNE GALPARSORO, GORKA
  • INZA CANO, IÑAKI
  • SIERRA ARAUJO, BASILIO

GruposAlternar navegación

16 Teórico (Castellano - Tarde)Mostrar/ocultar subpáginas

Calendario
SemanasLunesMartesMiércolesJuevesViernes
1-15

14:00-15:30

15:30-17:00

Profesorado

16 P. Laboratorio-1 (Castellano - Tarde)Mostrar/ocultar subpáginas

Calendario
SemanasLunesMartesMiércolesJuevesViernes
1-15

17:00-18:30

Profesorado

16 P. Laboratorio-2 (Castellano - Tarde)Mostrar/ocultar subpáginas

Calendario
SemanasLunesMartesMiércolesJuevesViernes
1-15

17:00-18:30

Profesorado

16 P. Laboratorio-3 (Castellano - Tarde)Mostrar/ocultar subpáginas

Calendario
SemanasLunesMartesMiércolesJuevesViernes
1-15

12:00-13:30

Profesorado

31 Teórico (Euskera - Mañana)Mostrar/ocultar subpáginas

Calendario
SemanasLunesMartesMiércolesJuevesViernes
1-15

09:00-10:30

10:30-12:00

Profesorado

31 P. Laboratorio-1 (Euskera - Mañana)Mostrar/ocultar subpáginas

Calendario
SemanasLunesMartesMiércolesJuevesViernes
1-15

12:00-13:30

Profesorado

31 P. Laboratorio-2 (Euskera - Mañana)Mostrar/ocultar subpáginas

Calendario
SemanasLunesMartesMiércolesJuevesViernes
1-15

14:00-15:30

Profesorado