Ruta de navegación

Contenido de XSL

Minería de datos26218

Centro
Facultad de Informática
Titulación
Grado en Inteligencia Artificial
Curso académico
2023/24
Curso
2
Nº Créditos
6
Idiomas
Castellano
Euskera
Código
26218

DocenciaAlternar navegación

Distribución de horas por tipo de enseñanza
Tipo de docenciaHoras de docencia presencialHoras de actividad no presencial del alumno/a
Magistral4060
P. Laboratorio2030

Guía docenteAlternar navegación

Descripción y Contextualización de la AsignaturaAlternar navegación

Esta asignatura se centra en el campo conocido como data mining o machine learning en sus términos anglosajones (minería de datos o aprendizaje automático, en su terminología castellana), y que engloba un conjunto de técnicas que, inspiradas en la inteligencia artificial y la estadística clásica, han tenido un fuerte auge en la última década para la resolución de problemas de grandes volúmenes de datos para los cuales la matemática, estadística o investigación operativa clásicas no ofrecen soluciones eficaces ni eficientes. Sus aplicaciones van desde campos tan dispares como la bioinformática o las finanzas o el marketing-publicidad, pasando por el lenguaje natural. La minería de datos es actualmente una de las disciplinas más en boga dentro de la inteligencia artificial, y grupos de investigación y empresas de todo el mundo trabajan en ella.



Aunque los grandes gigantes de las tecnologías hace años que son punteros en esta disciplina del "data science - big data - data mining", durante los últimos años se percibe como cada vez más empresas e instituciones de tamaño pequeño y medio de nuestro entorno son conscientes de la necesidad de, aparte de almacenar datos acerca de su actividad, analizarlos y tratar de extraer conclusiones (mayor conocimiento) para su práctica diaria. Todos los indicadores tanto mundiales como nacionales y regionales indican su auge y puesta en práctica por empresas de tamaños y actividades variadas. Es una profesión poblada sobre todo por ingenieros informáticos y matemáticos. Todavía el número de especialistas no es grande en nuestro entorno. En el caso concreto de Euskadi, el potente sector industrial de la máquina herramienta y el término de "Industry 4.0" han aumentado el protagonismo de nuestra disciplina.



La asignatura tiene una estrecha relación con otras asignaturas como "Inteligencia Artificial", "Diseño de Algoritmos", "Aprendizaje Automático y Redes Neuronales", "Aprendizaje Automático Avanzado", "Heurísticos de Búsqueda", "Minería de Datos Textuales", "Análisis de Datos Biomédicos y Fisiológicos", etc., en general con múltiples asignaturas y áreas de conocimiento que hacen uso de datos y su análisis posterior; y con asignaturas con bases de datos y sistemas de computación. Por otro lado, al ser una tecnología horizontal, los conocimientos adquiridos en el análisis de datos son útiles en Proyectos Fin de Grado de temáticas variadas en cualquiera de las especialidades del Grado.

Competencias/ Resultados de aprendizaje de la asignaturaAlternar navegación

Resultados del aprendizaje:

- comprensión principales técnicas para aprender modelos de clasificación supervisada

- comprensión principales técnicas para aprender modelos de clasificación no-supervisada

- comprensión principales técnicas de evaluación de modelos supervisados

- destreza en el manejo de tecnologías para aprender y evaluar clasificadores supervisados



El alumnado estudiará las principales (y más comunes) técnicas de la minería de datos, así como adquirirá destreza en el uso de paquetes de software libre que implementan dichas técnicas. Todo ello irá enlazado con el estudio y demostración de aplicaciones reales de dichas técnicas. El uso de textos escritos en inglés para la adquisición del vocabulario internacional básico de la minería de datos, será una constante en la formación del alumno.











Contenidos teórico-prácticosAlternar navegación

1. Introducción a la minería de datos

Una introducción a la minería de datos, centrándola en las aplicaciones y casos de éxito, más que en los algoritmos y técnicas concretas. Todo ello relacionando a la minería de datos como una disciplina dentro de la inteligencia artificial.



2. Clasificadores basados en distancias: El clasificador del vecino más próximo (k-nearest neighbour)

La intuitiva mecánica de este clásico método de la minería de datos lo hace apropiado para ser la primera técnica de clasificación supervisada que se le presente al alumno. Se estudiará su funcionamiento básico, así como sus principales variantes y parámetros de uso. Nos adentraremos en las siguientes aplicaciones de este tipo de clasificadores: sistemas de recomendación ("recommender systems"), reconocimiento de caracteres y de caras ("object character recognition" y "face recognition").



3. Técnicas de evaluación y validación de clasificadores

Estudio de las principales técnicas de evaluación de clasificadores, haciendo especial hincapié en los métodos de clasificación supervisada y la estimación de la tasa de acierto. Introducción a los tests estadísticos principales para la comparación entre distintos clasificadores



4. Árboles de clasificación y reglas de decisión

Estudio de estos dos clásicos algoritmos de análisis de datos, inspirados en la filosofía del divide y vencerás. Se hará hincapié en la transparencia y simplicidad de sus modelos finales, y las posibilidades que esto abre para la interacción con expertos de otros campos. Se detallarán distintas posibilidades de desarrollo (grow) y poda (pruning).



5. Clasificadores basados en redes Bayesianas

Estudio de la teoría básica subyacente al Teorema de Bayes, relacionándolo con las posibilidades que ello ha abierto para proponer distintos clasificadores supervisados basados en redes Bayesianas. Se detallarán modelos de clasificación de distinta complejidad. Nos adentraremos en las siguientes aplicaciones de este tipo de clasificadores: modelos de diagnóstico y pronóstico en medicina ("medicina basada en la evidencia", "medicina computacional").





6. Combinación de clasificadores

Estudio de las distintas técnicas para la combinación de clasificadores. Se hará hincapié en las bondades del consensuado de clasificadores, en contraposición al uso de un clasificador único



7. Técnicas de selección de variables

Estudio de los conceptos y técnicas básicas de selección de variables, tanto desde el punto de vista univariado como multivariado. Nos adentraremos en las siguientes aplicaciones de este tipo de técnicas: genes más relevantes en una dolencia (novedosa área de la bioinformática).



8. Clasificación no-supervisada (clustering)

Estudio de las principales técnicas de clasificación no-supervisada. Se hará hincapié en las especiales características de este tipo de problemas, diferenciándolos de los problemas supervisados. Veremos ejemplos prácticos del siguiente tipo: segmentación de imágenes, grupos de alimentos en base a sus características nutricionales, segmentación de clientes y marketing y publicidad dirigida.



9. Introducción a los heurísticos de búsqueda y los algoritmos genéticos

Se realizará una introducción a otra disciplina clave de la inteligencia artificial como los heurísticos de búsqueda. Estudio de la técnica de búsqueda más conocida, los algoritmos genéticos. Se estudiarán su utilidad para la resolución de problemas de selección de variables. Veremos los siguientes ejemplos prácticos: distintos problemas de diseño (aviones, mecanos), composición de partituras musicales, problema del agente viajero.

Este breve tema también os puede servir para decidir si os matriculáis en la posterior asignatura optativa de "Heurísticos de Búsqueda"



10. Introducción a las redes neuronales

Las redes neuronales fueron uno de los métodos inspiradores de la inteligencia artificial en la década de los 80. Sus aplicaciones, tanto en clasificación supervisada como no-supervisada, fueron pioneras y abrieron potentes ideas y caminos. Sus altas necesidades de cómputo hicieron decaer su utilización desde principios de siglo. Durante los últimos años, las amplias capacidades de cómputo y nuevos desarrollos metodológicos bajo el paraguas del término "deep learning", las han vuelto a poner bajo la atención de la comunidad del análisis de datos. Sirva esta introducción para adentrarnos en ellas bajo el prisma de la clasificación supervisada, y para decidir si os matriculáis en la posterior asignatura optativa de "Machine Learning and Neural Networks"

MetodologíaAlternar navegación

La semana se divide en tres módulos-clases. En dos de ellos se impartirán clases magistrales: presentación de la teoría básica y ejercicios a mano. Una tercera clase servirá para utilizar e implementar los conceptos vistos en laboratorio, con ordenador.



La asignatura está dividida en dos apartados: con un 66% de clases teóricas y para la resolución de ejercicios sin ordenador, y el otro 33% para el desarrollo de laboratorios prácticos con software específico de análisis de datos en el cual se trabajarán las técnicas expuestas en las clases teóricas. En ambas partes se utilizará una metodología de enseñanza activa, por lo que se le pedirá al alumnado su participación, de manera activa, tantos en las clases en aula como en los laboratorios. Se impulsará el trabajo autónomo del alumnado.









Sistemas de evaluaciónAlternar navegación

  • Sistema de Evaluación Continua
  • Sistema de Evaluación Final
  • Herramientas y porcentajes de calificación:
    • Prueba escrita a desarrollar (%): 60
    • Trabajos individuales (%): 40

Convocatoria Ordinaria: Orientaciones y RenunciaAlternar navegación

Hay dos maneras de aprobar la asignatura: formato de evaluación global (la detallamos en la última frase de esta sección) o evaluación continua (detallada en los siguientes párrafos).



La evaluación continua es voluntaria, y exige la participación activa del alumno. Por lo tanto, el alumno debe asistir a clase y tomar parte activa en ellas mediante las actividades allí propuestas (ejercicios, trabajos, prácticas, presentaciones, etc.).



Acompasados al ritmo de los temas en las clases teóricas y los conceptos vistos en éstas, el alumnado desarrollará de manera individual distintos trabajos prácticos. Éstos serán presentados en los laboratorios de la asignatura, y realizados de manera parcial en ellas. Se realizarán entrevistas personales con el profesor de la asignatura acerca de los trabajos prácticos realizados por cada alumno y la verificación de estos trabajos.



Se realizará un examen teórico parcial durante el cuatrimestre que cubrirá 2'5 puntos (de los 6 de la nota de teoría). En caso de una calificación satisfactoria en éste, el examen final para el alumno cubrirá los 3'5 puntos restantes (en este último será necesario al menos obtener 1'5 puntos para poder superar la asignatura). En caso de calificación deficiente en el examen teórico parcial, el examen teórico final cubrirá la totalidad de los 6 puntos de la teoría.





A modo de resumen, la forma de evaluación continua está compuesta por: evaluación de trabajos escritos desarrollados en los laboratorios (40%), dos exámenes parciales (60%).



Por otro lado, la evaluación global consiste en: 100%, examen teórico junto con la entrega obligatoria de trabajos prácticos. Peso del examen teórico, 60%. Peso de los trabajos prácticos, 40%. Misma ponderación que en la evaluación continua.



Para aprobar la asignatura es necesario aprobar ambas partes: teoría y práctica.





Los sistemas de evaluación que se contemplan son el sistema de evaluación continua y el sistema de

evaluación final. El sistema de evaluación continua es el que se utilizará de forma preferente, según se

indica en la normativa actual de la UPV/EHU.



El alumnado que, cumpliendo las condiciones para continuar en el sistema de evaluación continua,

decidiese optar por la evaluación global, deberá informar al profesorado responsable de la asignatura en

los plazos y forma indicados a continuación: mediante escrito, y tras realizarse el mencionado examen parcial de 2'5 puntos.







Convocatoria Extraordinaria: Orientaciones y RenunciaAlternar navegación

El proceso de evaluación en segunda convocatoria se guía por los mismos parámetros que en una primera convocatoria, con la salvedad que el examen teórico que cubre el 60% de la nota global es único. Necesidad de completar las prácticas que cubren el 40% de la nota global: para ello, si es que el alumno no las ha entregado en los plazos fijados durante las clases lectivas del cuatrimestre, debe dirigirse al profesor para consensuar un plazo de entrega de estas prácticas, que al menos debe ser con dos semanas de antelación respecto al examen en convocatoria extraordinaria.





Para aprobar la asignatura es necesario aprobar ambas partes: teoría y práctica.



Materiales de uso obligatorioAlternar navegación

Se utilizará la plataforma eGela para llevar al día la asignatura, colgando en la plataforma tanto el material teórico como el de los laboratorios, así como otros items de la asignatura (enlaces de Internet, calificaciones de las distintas pruebas, etc.)

BibliografíaAlternar navegación

Bibliografía básica

- L. Gatto (2020). An Introduction to Machine Learning with R. https://github.com/lgatto/IntroMachineLearningWithR/

- H. Wickham, G. Grolemund (2017). R para Ciencia de Datos. https://es.r4ds.hadley.nz/

- I. H. Witten, E. Frank (2016). Data Mining. Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann. (Fourth edition)

- B. Sierra (ed.) (2006). Aprendizaje Automático: conceptos básicos y avanzados. Prentice Hall.

- E. Alpaydin (2004). Introduction to Machine Learning. MIT Press.

- T. Mitchell (1997). Machine Learning. McGraw Hill.

- J. Han, M. Kamber (2006). Data Mining: concept and techniques. Morgan Kaufmann. (Second edition)

- Google courses related to Machine Learning: https://developers.google.com/machine-learning?hl=es-419

Bibliografía de profundización

- O. Pourret, P. Naïm, B. Marcot (2008). Bayesian networks: a practical guide to applications. Wiley.
- L.I. Kuncheva (2004). Combining Pattern Classifiers. Wiley.
- H. Liu, H. Motoda (ed.) (2008). Computational Methods of Feature Selection. Chapman & Hall/CRC.
- C.M. Bishop (2006). Pattern Recognition and Machine Learning. Springer.
- B. Liu (2006). Web Data Mining: exploring hyperlink, contents and usage data. Springer.

Revistas

- Machine Learning Journal. Springer.
- Journal of Machine Learning Research. Electronic publication.
- Data Mining and Knowledge Discovery. Springer.
- Bioinformatics. Oxford University Press.

Direcciones web

- Portal del software de libre distribución para la minería de datos WEKA: http://www.cs.waikato.ac.nz/ml/weka/
- caret-R paquete para clasificación y regresión: https://topepo.github.io/caret/
- scikit-learning, Machine Learning for Python: https://scikit-learn.org/stable/
- Portal del software de libre distribución de análisis estadístico R: http://www.r-project.org/
- Portal más popular acerca de la actualidad en la minería de datos: http://www.kdnuggets.com/
- Benchmark de problemas de minería de datos, repositorio UCI (University of California Irvine): http://archive.ics.uci.edu/ml/
- Página web con aplicaciones intuitivas y de sencilla lectura de la minería de datos: http://www.sc.ehu.es/ccwbayes/members/inaki/DM-applications.htm
- Portal para la realización de tests estadísticos on-line: http://faculty.vassar.edu/lowry/VassarStats.html
- Portal del software de libre distribución sobre heurísticos de búsqueda LiO: http://www.dsi.uclm.es/simd/SOFTWARE/LIO/
- Entrada de Wikipedia al término Minería de datos: http://es.wikipedia.org/wiki/Data_Mining
- Presentaciones (video + transparencias) de distintas aplicaciones y técnicas de Minería de Datos: http://videolectures.net/Top/Computer_Science/Machine_Learning/
- Iniciativa de las Naciones Unidas para el uso de la Minería de Datos ("Big Data") en la ayuda a distintos proyectos sociales: www.unglobalpulse.org



Tribunal de convocatorias 5ª, 6ª y excepcionalAlternar navegación

  • AZCUNE GALPARSORO, GORKA
  • INZA CANO, IÑAKI
  • SIERRA ARAUJO, BASILIO

GruposAlternar navegación

01 Teórico (Castellano - Mañana)Mostrar/ocultar subpáginas

Calendario
SemanasLunesMartesMiércolesJuevesViernes
1-15

10:30-12:00 (1)

09:00-10:30 (2)

Profesorado

01 P. Laboratorio-1 (Castellano - Mañana)Mostrar/ocultar subpáginas

Calendario
SemanasLunesMartesMiércolesJuevesViernes
1-15

12:00-13:30 (1)

Profesorado

01 P. Laboratorio-2 (Castellano - Mañana)Mostrar/ocultar subpáginas

Calendario
SemanasLunesMartesMiércolesJuevesViernes
1-15

12:00-13:30 (1)

Profesorado

46 Teórico (Euskera - Tarde)Mostrar/ocultar subpáginas

Calendario
SemanasLunesMartesMiércolesJuevesViernes
1-15

15:30-17:00 (1)

14:00-15:30 (2)

Profesorado

46 P. Laboratorio-1 (Euskera - Tarde)Mostrar/ocultar subpáginas

Calendario
SemanasLunesMartesMiércolesJuevesViernes
1-15

17:00-18:30 (1)

Profesorado

46 P. Laboratorio-2 (Euskera - Tarde)Mostrar/ocultar subpáginas

Calendario
SemanasLunesMartesMiércolesJuevesViernes
1-15

12:00-13:30 (1)

Profesorado