Gaia

XSLaren edukia

Ikasketa Automatiko Aurreratua

Gaiari buruzko datu orokorrak

Modalitatea
Ikasgelakoa
Hizkuntza
Gaztelania

Irakasgaiaren azalpena eta testuingurua

El aprendizaje automático (o "machine learning") es una disciplina que, tras surgir a mediados de la década de los 90, se encuentra actualmente en su punto de madurez. Recoge una colección de algoritmos y técnicas que, inspiradas en la estadística y matemática, inteligencia artificial, etc., posibilitan un análisis moderno de los datos que nuestra sociedad genera.



Vivimos en un mundo interconectado donde nuestra actividad diaria genera un flujo de datos inimaginable hace unas décadas. Esto abre nuevos retos al análisis de estos datos heterogéneos y para ello, las técnicas de "machine learning" hacen un uso intensivo de las capacidades de almacenamiento y cómputo de los ordenadores modernos. Esto ha servido para que el aprendizaje automático esté presente como herramienta clave en muchas áreas del conocimiento, encontrándonos aplicaciones de éxito en campos tan variados como la medicina, el marketing o la industria 4.0, la bioinformática y el tratamiento de textos o imágenes. Así, estamos ante una tecnología horizontal que está demostrando su capacidad para solucionar problemas de análisis de datos en los ámbitos más variados.



Cuando la dimensión de los datos exija de almacenamiento eficiente y cómputo paralelo, el análisis de este tipo de datos se conoce como "big data analysis". Cuando el flujo de estos datos es infinito y el almacenamiento no es posible y la actualización del modelo debe ser "on the fly", nos encontramos con "data stream analysis". Estos dos escenarios también serán descritos y trabajados en el curso.



Como un “heredero” moderno irrumpe con fuerza el concepto de “big data”, que hace referencia a los retos de almacenamiento, procesamiento-cómputo y análisis a los que nos exponen nuevos tipos de datos generados de forma masiva tales como compras electrónicas, uso de redes sociales y telefonía, contadores de tráfico y electricidad, etc. Los principales Institutos de Estadística Oficial ya están indicando cuáles son las principales fuentes de big data en nuestra sociedad: las conoceremos durante el curso.



El alumno ya está familiarizado (tanto en su formación de grado como en la asignatura "Exploración y Análisis de Datos" de este master), con escenarios de análisis como la "clasificación supervisada" y el "clustering". En el curso "saldremos de esta zona de confort", ante escenarios cuya matriz de datos recoge otro tipo de retos, especialmente en el etiquetado de éstos.



En el curso primeramente se introducirán los principales escenarios de clasificación y análisis de datos. Visualización de datos. Posteriormente se cubrirán tres temas clave en la minería de datos: el preprocesado de datos, la selección de variables relevantes y la estimación de la capacidad predictiva de los modelos aprendidos. Principalmente con la tecnología R-project (paquete “caret”), se practicará con diversas bases de datos reales y problemas para ilustrar el uso de las técnicas descritas. Uso de la tecnología ofrecida por el puntero paquete de R “h2o” para el análisis de big data. Uso del software MOA ("Massive Online Analysis") para el análisis de "data streaming".



Durante el estudio y práctica de las principales técnicas de los distintos temas del curso, se repasarán los principales campos de aplicación y casos de uso en el ámbito empresarial del aprendizaje automático y el "big data analysis", utilizando para ello ejemplos reales de éxito. Se repasarán los portales web y grupos de noticias donde se muestran las aplicaciones más populares de la minería de datos. Se verán casos de estudio en áreas tales como los sistemas de recomendación on-line, marketing y publicidad dirigida y segmentación de clientes, sentiment-analysis en blogs y posts, tráfico y logística, etc. La elección de estos casos de uso se hará también teniendo en cuenta los intereses específicos del alumnado de cada curso académico. En este apartado, el curso se apoyará en el amplio abanico de aplicaciones que recoge la siguiente web:

http://www.sc.ehu.es/ccwbayes/members/inaki/DM-applications.htm <br /><br />Los problemas y bases de datos propuestos por empresas para su análisis en formato de competición y premio en kaggle.com son un motivador y referente claro de casos de uso.

Irakasleak

IzenaErakundeaKategoriaDoktoreaIrakaskuntza-profilaArloaHelbide elektronikoa
INZA CANO, IÑAKIEuskal Herriko UnibertsitateaIrakaslego AgregatuaDoktoreaElebidunaKonputazio Zientzia eta Adimen Artifizialainaki.inza@ehu.eus

Irakaskuntza motak

MotaIkasgelako orduakIkasgelaz kanpoko orduakOrduak guztira
Magistrala151833
Mintegia101929
Ordenagailuko p.5813

Irakaskuntza motak

IzenaOrduakIkasgelako orduen ehunekoa
Banakako eta/edo taldeko lana45.00 %
Eskola magistralak15.0100 %
Ordenagailuko praktikak, irteerak, bisitak15.0100 %

Ebaluazio-sistemak

IzenaGutxieneko ponderazioaGehieneko ponderazioa
Lan praktikoak100.0 % 100.0 %

Irakasgaia ikastean lortuko diren emaitzak

- Capacitación básica sobre los principales escenarios de análisis de datos previamente descritos: comprensión de las características principales de cada escenario y utilización de software para la resolución del caso de estudio

Ohiko deialdia: orientazioak eta uko egitea

Con una fecha que se anunciará en clase, el alumno entregará un trabajo práctico que recogerá un caso práctico con un "pipeline"-flujo completo de análisis de datos. Éste será la base para la evaluación.

Ezohiko deialdia: orientazioak eta uko egitea

En caso de que el alumno no pueda cumplir con la fecha indicada para la entrega del trabajo de evaluación en la convocatoria ordinaria, debe dirigirse al profesor y se consensuará un nuevo plazo de entrega de dicho trabajo para la convocatoria extraordinaria.

Irakasgai-zerrenda

1- Data Science ecosystem. Principales términos, conceptos y fuentes a consultar. Casos de uso realizados por los Institutos de Estadística Oficial. Presentación de las principales fuentes de big data. Ilustración de las principales y actuales aplicaciones: industry 4.0, bioinformática, NLP, etc.



2- Taxonomy of learning scenarios. Principales escenarios de análisis: clasificación supervisada, clustering, sistemas de recomendación, clasificación semi-supervisada, clasificación multi-label y multi-dimensional, “weak-supervision” (label proportions, partial labels, multiple-instance learning, partial labels, crowd learning, etc.).



3- One-class classification y multivariate-outlier detection. Software: varios paquetes en R.



4- Semi-supervised learning - Clasificación semi-supervisada. Aprendizaje de modelos predictivos en abundancia de datos sin etiquetar. Software: RSSL package.



5- "Advanced" data visualization: lattice and ggplot2 packages . Reducción de la dimensionalidad y visualización con t-SNE



6- Interpretabilidad de modelos. Métricas para la "explicabilidad" de modelos y SHAP values.



7- Big data analysis. Software para el almacenamiento, computación y análisis de grandes cantidades de datos. Software: h2o package.



8- Data stream analysis. Aprendizaje de modelos en un flujo continuo e infinito de muestras. Software: MOA - Massive Online Analysis



9- Métodos de validación y calibración de modelos y uso de tests estadísticos para compararlos



10- Problemas originados por el desbalanceo de las clases



11- "Advanced" feature selection topics (si tiempo)



12- Data preprocessing with general filters (si tiempo)

problemas de clasificación desbalanceados



13- Trabajo final -- pipeline de clasificación supervisada con el paquete caret

Bibliografia

Nahitaez erabili beharreko materiala

El material obligatorio para la asignatura se ubicará en la plataforma egela de docencia virtual que nos ofrece la Universidad: tutoriales, ejercicios, transparencias, enlaces, etc.

Oinarrizko bibliografia

- M. Kuhn, K. Johnson (2013). Applied Predictive Modeling. R-package caret. Springer.

- A. Bifet, R. Gavaldá, G. Holmes, B. Pfahringer (2018). Machine Learning for Data Streams with Practical Examples in MOA. MIT Press. https://moa.cms.waikato.ac.nz/book/

- I.H. Witten, E. Frank (2011). Data Mining: Practical Machine Learning Tools and Techniques. Elsevier, 3rd edition.

- J.E. van Engelen, H.H. Hoos (2020). A survey on semi-supervised learning. Machine Learning, 109, 373-440

- J. Hernández-González, I. Inza, J.A. Lozano (2016). Weak supervision and other non-standard classification problems: A taxonomy. Pattern Recognition Letters, 69, 49-55

- G. Santafe, I. Inza, J.A. Lozano (2015). Dealing with the evaluation of supervised classification algorithms. Artificial Intelligence Review, 44(4), 467-508

- C. Molnar (2023). Interpretable Machine Learning. https://christophm.github.io/interpretable-ml-book/

Gehiago sakontzeko bibliografia

- J. Albert, M. Rizzo (2012). R by Example. Springer.



- G. Williams (2011). Data Mining with Rattle and R. Springer.



- F. Hahne, W. Huber, R. Gentleman, S. Falcon (2008). Bioconductor Case Studies. Springer.



- D. Sarkar (2008). Lattice; Multivariate Data Visualization with R. Springer.



- S. Aiello, E. Eckstrand, A. Fu et al. (2016). Machine Learning with R and h2o. H2O.ai Inc.



- I. Inza, B. Calvo, R. Armañanzas, E. Bengoetxea, P. Larrañaga, J.A. Lozano (2010). &#8220;Machine learning: an indispensable tool in bioinformatics&#8221;. Methods in Molecular Biology. R. Matthiesen (ed.). Humana Press.



- Y. Saeys, I. Inza, P. Larrañaga (2007). A review of feature selection techniques in bioinformatics. Bioinformatics, 23(19), 2507-251



- R. Domingues, M. Filippone, P. Michiardi, J. Zouaoui (2023). A comparative evaluation of outlier detection algorithms: Experiments and analyses. Pattern Recognition, 74, 406-421.

Aldizkariak

Machine Learning, Pattern Recognition, Journal of Machine Learning Research, Pattern Recognition Letters, Bioinformatics

Estekak

- Kdnuggets: data mining, web mining, text mining, and knowledge discovery: http://www.kdnuggets.com



- A compilation of data mining applications:http://www.sc.ehu.es/ccwbayes/members/inaki/DM-applications.htm



- MOA, Massive Online Analysis: https://moa.cms.waikato.ac.nz/



- National Center for Biotechnology Information: http://www.ncbi.nlm.gov/



- Competiciones de minería de datos: http://www.kaggle.com



- Fast and scalable machine learning: http://www.h2o.ai



- Principales aplicaciones de Big Data:



-- Sandbox UNECE-EuroStat: https://statswiki.unece.org/display/bigdata/Sandbox



-- ESSnet, proyectos de BigData de Institutos Europeos en Estadística Oficial: https://webgate.ec.europa.eu/fpfis/mwikis/essnetbigdata/index.php/Main_Page

XSLaren edukia

Iradokizunak eta eskaerak