Gaia

Datu-meatzaritza: enpresa-oinarriak eta aplikazioak eta oinarri eta aplikazio bioinformatikoak

Gaiari buruzko datu orokorrak

Modalitatea
Ikasgelakoa
Birtuala
Hizkuntza
Gaztelania

Irakasgaiaren azalpena eta testuingurua

Minería de datos y big data analysis: fundamentos, tecnologías y aplicaciones

La minería de datos es una disciplina que, tras surgir a mediados de la década de los 90, se encuentra actualmente en su punto de madurez. Propone una colección de algoritmos y técnicas que, inspiradas en la estadística clásica, inteligencia artificial, etc., posibilitan un análisis moderno de los datos que nuestra sociedad actual genera. Vivimos en un mundo interconectado donde nuestra actividad diaria genera un flujo de datos inimaginable hace unas décadas. Esto abre nuevos retos al análisis de estos datos heterogéneos y para ello, las técnicas de la minería de datos hacen un uso intensivo de las capacidades de almacenamiento y cómputo de los ordenadores modernos. Esto ha servido para que la minería de datos esté presente como herramienta clave en muchas áreas del conocimiento, encontrándonos aplicaciones de éxito en campos tan variados como la medicina, el marketing, la bioinformática y el tratamiento de textos o imágenes. Así, la minería de datos es una tecnología horizontal que está demostrando su capacidad para solucionar problemas de análisis de datos en los ámbitos más variados.

Como un “heredero” moderna irrumpe con fuerza el concepto de “big data”, que hace referencia a los retos de almacenamiento, procesamiento-cómputo y análisis a los que nos exponen nuevos tipos de datos generados de forma masiva tales como compras electrónicas, uso de redes sociales y telefonía, contadores de tráfico y electricidad, etc.

El World Economic Forum ya ha hecho referencia en un reciente informe a las posibilidades económicas que abren estas colecciones de datos, y denomina como “data ecosystem” al entorno en el que vivimos. Ver el informe completo “Big data, big data impact: new possibilities for international development”:

http://www3.weforum.org/docs/WEF_TC_MFS_BigDataBigImpact_Briefing_2012.pdf

Y los principales Institutos de Estadística Oficial ya están indicando cuáles son las principales fuentes de big data en nuestra sociedad: las conoceremos durante el curso.

En el curso primeramente se introducirán los principales escenarios de clasificación y análisis de datos. Visualización de datos. Posteriormente se cubrirán tres temas clave en la minería de datos: el preprocesado de datos, la selección de variables relevantes y la estimación de la capacidad predictiva de los modelos aprendidos. Primeramente a modo introductorio mediante el software libre WEKA y posteriormente con el más profesional R-project (paquete “caret”), se practicará con diversas bases de datos reales y problemas para ilustrar el uso de las técnicas descritas. Uso de la tecnología ofrecida por el puntero paquete de R “h2o” para el análisis de big data.

Durante el estudio y práctica de las principales técnicas de los distintos temas del curso, nos centraremos en mostrar al alumno las amplias posibilidades de aplicación de la minería de datos. Se repasarán los principales campos de aplicación y casos de uso en el ámbito empresarial, utilizando para ello ejemplos reales de éxito. Se repasarán los portales web y grupos de noticias donde se muestran las aplicaciones más populares de la minería de datos. Se verán casos de estudio en áreas tales como los sistemas de recomendación on-line, marketing y publicidad dirigida y segmentación de clientes, sentiment-analysis en blogs y posts, tráfico y logística, etc. La elección de estos casos de uso se hará también teniendo en cuenta los intereses específicos del alumnado de cada curso académico. En este apartado, el curso se apoyará en el amplio abanico de aplicaciones que recoge la siguiente web:

http://www.sc.ehu.es/ccwbayes/members/inaki/DM-applications.htm

Los problemas y bases de datos propuestos por empresas para su análisis en formato de competición y premio en kaggle.com son un motivador y referente claro de casos de uso.

También se describirán casos de uso en el incipiente y prometedor campo de la bioinformática, especialmente en la selección de genes diferencialmente expresados para la construcción de modelos de diagnóstico y pronóstico en enfermedades.

Para resolver los retos expuestos y practicar con las metodologías mencionadas, a lo largo del curso se practicará con varias tecnologías punteras y de uso extendido en la comunidad.

Irakasleak

IzenaErakundeaKategoriaDoktoreaIrakaskuntza-profilaArloaHelbide elektronikoa
ARBELAIZ GALLEGO, OLATZEuskal Herriko UnibertsitateaIrakaslego AgregatuaDoktoreaElebidunaKonputagailuen Arkitektura eta Teknologiaolatz.arbelaitz@ehu.eus
GURRUTXAGA GOIKOETXEA, IBAIEuskal Herriko UnibertsitateaIrakaslego AgregatuaDoktoreaElebidunaKonputagailuen Arkitektura eta Teknologiai.gurrutxaga@ehu.eus
INZA CANO, IÑAKIEuskal Herriko UnibertsitateaIrakaslego AgregatuaDoktoreaElebidunaKonputazio Zientzia eta Adimen Artifizialainaki.inza@ehu.eus
IRIGOYEN GARBIZU, ITZIAREuskal Herriko UnibertsitateaIrakaslego AgregatuaDoktoreaElebidunaKonputazio Zientzia eta Adimen Artifizialaitziar.irigoien@ehu.eus
MARTIN ARAMBURU, JOSE IGNACIOEuskal Herriko UnibertsitateaUnibertsitateko Irakaslego TitularraDoktoreaElebidunaKonputagailuen Arkitektura eta Teknologiaj.martin@ehu.eus
MUGUERZA RIVERO, JAVIER FRANCISCOEuskal Herriko UnibertsitateaUnibertsitateko KatedradunaDoktoreaElebidunaKonputagailuen Arkitektura eta Teknologiaj.muguerza@ehu.eus
PEREZ DE LA FUENTE, JESUS MARIAEuskal Herriko UnibertsitateaIrakaslego AgregatuaDoktoreaElebidunaKonputagailuen Arkitektura eta Teknologiatxus.perez@ehu.eus

Gaitasunak

IzenaPisua
Adquisición de los fundamentos matemáticos de las técnicas de minería de datos.20.0%
Capacidad de identificación y modelación de problemas en el ámbito empresarial y la bioinformática susceptibles de ser aplicados por las técnicas de minería de datos20.0%
Conocimiento básico de algunos softwares de libre distribución para la minería de datos en el ámbito empresarial y la bioinformática, y adquisición de habilidades para el diseño e implementación de nuevas técnicas de minería de datos en el ámbito empresarial y la bioinformática.20.0%
Desarrollar capacidades de realización de experimentos y de interpretación de los resultados de la aplicación de las técnicas de exploración y análisis de datos.20.0%
Adquirir conocimientos que permitan trabajar en grupo, evaluar y presentar de forma crítica y razonada la bondad de las diversas técnicas de minería de datos en el ámbito empresarial y la bioinformática.20.0%

Irakaskuntza motak

MotaIkasgelako orduakIkasgelaz kanpoko orduakOrduak guztira
Magistrala151833
Mintegia5813
Ordenagailuko p.101929

Irakaskuntza motak

IzenaOrduakIkasgelako orduen ehunekoa
Aplikazio-tailerrak10.0100%
Azalpenezko eskolak10.0100%
Bideokonferentziak0.0100%
Ikasketa sistematizatua20.00%
Interakzioa irakaslearekin ingurune birtualetan0.030%
Irakaskuntza-taldeak plataforma birtualaren bidez proposatutako jarduerak0.00%
Irakurketa eta analisi praktikoak20.050%
Plataformaren bidez harreman birtualean emandako orduak (foroetan parte hartzea, etab.)0.0100%
Txostenak eta azalpenak lantzea15.030%

Ebaluazio-sistemak

IzenaGutxieneko ponderazioaGehieneko ponderazioa
Bertaratzea eta Parte-hartzea15.0% 25.0%
Azalpenak30.0% 40.0%
Beste batzuk0.0% 10.0%
Foroetan parte hartzea15.0% 25.0%
Lan praktikoak30.0% 40.0%
Urrutiko ebaluazio-probak75.0% 85.0%

Ohiko deialdia: orientazioak eta uko egitea

Con una fecha que se anunciará en clase, el alumno entregará un trabajo práctico que recogerá un caso práctico con un "pipeline"-flujo completo de análisis de datos. Éste será la base para la evaluación.

Ezohiko deialdia: orientazioak eta uko egitea

En caso de que el alumno no pueda cumplir con la fecha indicada para la entrega del trabajo de evaluación en la convocatoria ordinaria, debe dirigirse al profesor y se consensuará un nuevo plazo de entrega de dicho trabajo para la convocatoria extraordinaria.

Irakasgai-zerrenda

- Tema 1: Introducción a la minería de datos:

Principales escenarios de análisis: clasificación supervisada, clustering,

sistemas de recomendación, clasificación semi-supervisada, reglas de

asociación, clasificación multi-label y multi-dimensional, “weak-

supervision” (label proportions, partial labels, multiple-instance learning,

partial labels, crowd learning, etc.).

Ilustración de las principales y actuales aplicaciones para cada uno de los

escenarios de clasificación anteriores: marketing, bioinformática,

industry 4.0, imágenes

Presentación de las principales fuentes de big data. Casos de uso realizados por los Institutos de Estadística Oficial.

- Tema 2: Minería de datos: desde la teoría a la práctica. Ilustración de los anteriores

escenarios de análisis mediante el software WEKA.

- Tema 3: Visualización de datos. Pŕactica con el software R.

- Tema 4: Preprocesado de datos para su posterior análisis. Principales técnicas y filtros.

- Tema 5: Introducción a la selección de variables. Tipos de técnicas de selección de

variables.

- Tema 6: Estimación del porcentaje de bien clasificador y tests estadísticos para la

comparación de clasificadores: evaluación y credibilidad de los modelos

aprendidos

- Tema 7: Estudio de distintos casos de uso y recursos:

-- Sistemas de recomendación – “Recommender systems”: músicas, películas

-- Bioinformática: selección de genes diferencialmente expresados para el diagnóstico y pronóstico de enfermedades

-- Informe del “World Economic Forum” sobre las posibilidades económicas que brinda el análisis masivo de los flujos de datos modernos

-- Problemas de la plataforma kaggle.com

-- Portal de referencia sobre el uso de la minería de datos en el mundo empresarial, industrial: www.kdnuggets.com

-- Visitar la siguiente página web para consultar el abanico de las aplicaciones y casos de uso que manejará el profesor durante el curso y estudiará junto con los alumnos:

http://www.sc.ehu.es/ccwbayes/members/inaki/DM-applications.htm

-- Aplicaciones en: marketing y publicidad dirigida, transporte y logística, sentiment-analysis...

- Tema 8: Tutorial con el software R (paquete “caret”). Creación de todo el “pipeline”- flujo de análisis

- Tema 9: Tutorial con el software R (paquete “h2o”): mining big data

Bibliografia

Nahitaez erabili beharreko materiala

- El material obligatorio para la asignatura se ubicará en la plataforma egela de docencia virtual que nos ofrece la Universidad: tutoriales, ejercicios, transparencias, enlaces, etc.

Oinarrizko bibliografia

- M. Kuhn, K. Johnson (2013). Applied Predictive Modeling. Springer.

- I.H. Witten, E. Frank (2011). Data Mining: Practical Machine Learning Tools and Techniques. Elsevier, 3rd edition.

- B. Sierra (2006). Aprendizaje Automático. Conceptos Básicos y Avanzados. Pearson - Prentice Hall.

Gehiago sakontzeko bibliografia

- J. Albert, M. Rizzo (2012). R by Example. Springer.

- G. Williams (2011). Data Mining with Rattle and R. Springer.

- F. Hahne, W. Huber, R. Gentleman, S. Falcon (2008). Bioconductor Case Studies. Springer.

- D. Sarkar (2008). Lattice; Multivariate Data Visualization with R. Springer.

- S. Aiello, E. Eckstrand, A. Fu et al. (2016). Machine Learning with R and h2o. H2O.ai Inc.

- I. Inza, B. Calvo, R. Armañanzas, E. Bengoetxea, P. Larrañaga, J.A. Lozano (2010). “Machine learning: an indispensable tool in bioinformatics”. Methods in Molecular Biology. R. Matthiesen (ed.). Humana Press.

- Y. Saeys, I. Inza, P. Larrañaga (2007). A review of feature selection techniques in bioinformatics. Bioinformatics, 23(19), 2507-251

Aldizkariak

Machine Learning, Pattern Recognition, Journal of Machine Learning Research, Pattern Recognition Letters, Bioinformatics

Estekak

- Kdnuggets: data mining, web mining, text mining, and knowledge discovery: http://www.kdnuggets.com

- A compilation of data mining applications:http://www.sc.ehu.es/ccwbayes/members/inaki/DM-applications.htm

- National Center for Biotechnology Information: http://www.ncbi.nlm.gov/

- Competiciones de minería de datos: http://www.kaggle.com

- Fast and scalable machine learning: http://www.h2o.ai

- Principales aplicaciones de Big Data:

-- Sandbox UNECE-EuroStat: https://statswiki.unece.org/display/bigdata/Sandbox

-- ESSnet, proyectos de BigData de Institutos Europeos en Estadística Oficial: https://webgate.ec.europa.eu/fpfis/mwikis/essnetbigdata/index.php/Main_Page

Iradokizunak eta eskaerak