Materia

Contenido de XSL

Aprendizaje Automático (II)

Datos generales de la materia

Modalidad
Presencial
Idioma
Inglés

Descripción y contextualización de la asignatura

El curso pone el foco en un conjunto de t¿icas inspiradas en la inteligencia artificial y la estad¿ica. En la ¿ltima d¿da, estos campos han experimentado un crecimiento notable, particularmente relacionado con el an¿sis de grandes cantidades de datos mediante t¿icas y algoritmos de base matem¿ca, estad¿ica y de optimizaci¿eur¿ica. La aplicaci¿e t¿icas de aprendizaje autom¿co est¿mpliamente expandido en ¿as como la bioinform¿ca, finanzas, y tambi¿el procesamiento de textos.

El alumnado estudiar¿as principales t¿icas para la miner¿de datos, y aumentar¿us habilidades en usos de populares herramientas de software que implementan estas t¿icas. Todo ello mediante la demostraci¿obre aplicaciones reales de procesamiento de texto.

Profesorado

NombreInstituciónCategoríaDoctor/aPerfil docenteÁreaEmail
INZA CANO, IÑAKIUniversidad del País Vasco/Euskal Herriko UnibertsitateaProfesorado PlenoDoctorBilingüeCiencia de la Computación e Inteligencia Artificialinaki.inza@ehu.eus

Competencias

DenominaciónPeso
Habilidad para manejar las estrategias y herramientas basadas en conocimiento para el procesamiento del lenguaje humano.30.0 %
Habilidad para el manejo y la adaptación de los métodos simbólicos y basados en corpus (aprendizaje automático) más relevantes para la investigación en las tecnologías de la lengua.70.0 %

Tipos de docencia

TipoHoras presencialesHoras no presencialesHoras totales
Magistral101525
P. Ordenador203050

Resultados del aprendizaje de la asignatura

* Conocimiento de los principales escenarios de aprendizaje autom¿co.

* Identificar el tipo de t¿ica a aplicar en cada escenario de clasificaci¿* Conocer los pasos b¿cos, standard, de un pipeline-flujo de an¿sis de datos,

* Uso de librer¿ de R-project para la creaci¿e un corpus y su "document-term matrix" asociada, y la posterior aplicaci¿e t¿icas de aprendizaje autom¿co sobre ella.

Temario

1- Términos generales sobre "data science": IA y "data science".



2- Principales escenarios de clasificación: clasificación supervisada, clasificación no-supervisada, weakly-supervised classification. Para cada escenario: estructura de la matriz de datos, tipo de anotación, aplicaciones reales.



3- One-class classification and outlier detection. Detección de documentos-outlier. Utilidad en NLP. Software, R packages.



4- Clasificación semi-supervisada. Aprendizaje con documentos sin anotación. Utilidad en NLP. Software: R-RSSL package.



5- Uso de test estadísticos para la comparativa de modelos. Sofware: R, páginas web online



6- Técnicas de selección de variables (si tiempo)



7- Técnicas de filtrado "generalistas". Preprocesado: datos perdidos, one-hot-encoding, discretización, desbalanceo de clases... (si tiempo)



8- "A short introduction to the tm (text mining) package in R: text processing". Cómo construir mediante operadores de text-mining un corpus, transformarlo a una document-term matrix para su posterior análisis posterior. A partir de text en ficheros, html, twitter, etc... Tutorial con R.



9- "The machine learning approach: clustering words and classifying documents with R". Tutorial con el paquete R-caret.



10- "First steps on deep learning for NLP by R’s h2o package (+word2vec)". Tutorial con R. Trabajo voluntario.

Bibliografía

Bibliografía básica

*M. Kuhn, K. Johnson (2013). Applied Predictive Modeling. Springer.

*ParallelDots, online text analysis APIs for several tasks: sentiment analysis, tags' prediction, keyword generator, entity extraction, comparing similarity of texts, different emotions analysis, intent analysis, abusive text prediction, etc. https://www.paralleldots.com/text-analysis-apis

* sentiment140: an interesting project for automatic sentiment categorization of tweets: http://help.sentiment140.com/

* Stanford TreeBank project. "Recursive deep models for semantic compositionality over a semantic treebank". https://nlp.stanford.edu/sentiment/

* RDataMining website: Text mining with R: Twitter data analysis: http://www.rdatamining.com/docs/text-mining-with-r

* Awesome sentiment analysis: A curated list of Sentiment Analysis methods, implementations and misc. https://github.com/xiamx/awesome-sentiment-analysis

* "5 things you need to know about sentiment analysis and classification": https://www.kdnuggets.com/2018/03/5-things-sentiment-analysis-classification.html

* Bing Liu's website on "Opinion mining, sentiment analysis and opinion spam detection: the machine learning approach". https://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html

* 18 NLP key terms, explained for ML practitioners and NLP novices: https://www.kdnuggets.com/2017/02/natural-language-processing-key-terms-explained.html

Contenido de XSL

No ha sido posible cargar el contenido, inténtelo más tarde. En caso de que el problema persista contacte con el CAU (Tlf: 946014400 / Email: cau@ehu.eus / Web: https://lagun.ehu.eus).