Materia

Contenido de XSL

Infraestructuras en Ciencia de Datos

Datos generales de la materia

Modalidad
Presencial
Idioma
Inglés

Descripción y contextualización de la asignatura

AVISO: ESTA ASIGNATURA SE OFERTA SOLAMENTE EN INGLÉS



Con el volumen de datos registrados continuamente aumentando por momentos, la viabilidad de utilizar computadoras personales para realizar cualquier tipo de procesamiento de datos se ha reducido significativamente. En este contexto, la parte más pesada de la carga computacional de un proyecto común de ciencia de datos actual recae en los clusters de computación, cuya arquitectura (tanto en términos de hardware como de software) puede variar drásticamente dependiendo del tipo de tarea para la que está diseñado.



En la asignatura "Infraestructuras para la Ciencia de Datos" conoceremos en primer lugar los diferentes paradigmas del procesamiento de datos, haciendo hincapié en las diferencias de cada caso, las diferencias en los requisitos computacionales y cómo éstos se trasladan al diseño de clusters de computación.

Profesorado

NombreInstituciónCategoríaDoctor/aPerfil docenteÁreaEmail
GARCIARENA HUALDE, UNAIUniversidad del País Vasco/Euskal Herriko UnibertsitateaProfesorado Adjunto (Ayudante Doctor/A)DoctorBilingüeArquitectura y Tecnología de Computadoresunai.garciarena@ehu.eus
NAVARIDAS PALMA, JAVIERUniversidad del País Vasco/Euskal Herriko UnibertsitateaInvestigador Ramón Y CajalDoctorNo bilingüe** n o c o n s t a e l a r e a * ó " á r e a p r o v i s i o n a l"javier.navaridas@ehu.eus

Competencias

DenominaciónPeso
Que los estudiantes entiendan las necesidades y requisitos de problemas de ciencia de datos correspondiente a diferentes disciplinas científicas, trabajando de forma conjunta con los usuarios.0.0 %
Que los estudiantes sean capaces de ofrecer soluciones técnicas adecuadas y adaptadas a las necesidades asociadas cada problema, documentando adecuadamente dichas soluciones.0.0 %

Tipos de docencia

TipoHoras presencialesHoras no presencialesHoras totales
Magistral1522.537.5
P. Ordenador1522.537.5

Actividades formativas

DenominaciónHorasPorcentaje de presencialidad
Clases magistrales15.0100 %
Prácticas de ordenador15.0100 %
Trabajo personal del alumno/a45.00 %

Sistemas de evaluación

DenominaciónPonderación mínimaPonderación máxima
Ensayo, trabajo individual y/o en grupo50.0 % 100.0 %
Examen escrito0.0 % 50.0 %

Resultados del aprendizaje de la asignatura

Después de realizar este curso, los estudiantes podrán:

Comprender la diferencia entre las arquitecturas de los centros de datos y su relación con los requisitos a los que responden: HPC, procesamiento de datos, o almacenamiento de datos.

Conocer las diferentes opciones de software disponibles para dichas arquitecturas de hardware y cómo sus características coinciden con los diferentes casos de uso.

Implementar tales arquitecturas.

Convocatoria ordinaria: orientaciones y renuncia

La evaluación constará de dos partes, un examen escrito y un conjunto de trabajos prácticos. El examen (50% de la nota final) cubrirá los conceptos teóricos vistos en clase, mientras que la parte práctica (50% restante de la nota final, dividida en varios trabajos) consistirá en implementar las arquitecturas de software en entornos virtuales.

Convocatoria extraordinaria: orientaciones y renuncia

La evaluación constará de dos partes, un examen escrito y un conjunto de trabajos prácticos. El examen (50% de la nota final) cubrirá los conceptos teóricos vistos en clase, mientras que la parte práctica (50% restante de la nota final, dividida en varios trabajos) consistirá en implementar las arquitecturas de software en entornos virtuales.

Temario

1. Infraestructuras de procesamiento

1. Nube

2. Red

3. Centros de datos

2. Orquestación de servicios

1. Virtualización

3. Arquitecturas de procesamiento

1. Computación de alto rendimiento

2. Big Data

4. Plataformas de procesamiento de Big Data

1. Batch

2. Streaming e IoT

Bibliografía

Materiales de uso obligatorio

Aunque no es necesario, es muy recomendable disponer de un ordenador portátil personal con potencia suficiente para realizar tareas de virtualización para el desarrollo de las actividades propuestas en la asignatura.

Bibliografía básica

Tom White. Hadoop: The Definitive Guide: Storage and Analysis at Internet Scale. 2015.

Ben Sharma. Architecting Data Lakes, 2nd Edition. 2018.

Neha Narkhede et al. "Kafka" The Definitive Guide: Real-time data and stream processing at scale. 2017.

Jan Kunigk et al. Architecting Modern Data Platforms: A Guide to Enterprise Hadoop at Scale. 2019.

Sam Alapati. Expert Hadoop Administration: Managing, Tuning, and Securing Spark, YARN, and HDFS. 2017.

Revistas

Journal of Big Data (Springer)



Big data research (Elsevier)

Contenido de XSL

Sugerencias y solicitudes