Materia
Infraestructuras en Ciencia de Datos
Datos generales de la materia
- Modalidad
- Presencial
- Idioma
- Inglés
Descripción y contextualización de la asignatura
AVISO: ESTA ASIGNATURA SE OFERTA SOLAMENTE EN INGLÉSCon el volumen de datos registrados continuamente aumentando por momentos, la viabilidad de utilizar computadoras personales para realizar cualquier tipo de procesamiento de datos se ha reducido significativamente. En este contexto, la parte más pesada de la carga computacional de un proyecto común de ciencia de datos actual recae en los clusters de computación, cuya arquitectura (tanto en términos de hardware como de software) puede variar drásticamente dependiendo del tipo de tarea para la que está diseñado.
En la asignatura "Infraestructuras para la Ciencia de Datos" conoceremos en primer lugar los diferentes paradigmas del procesamiento de datos, haciendo hincapié en las diferencias de cada caso, las diferencias en los requisitos computacionales y cómo éstos se trasladan al diseño de clusters de computación.
Profesorado
| Nombre | Institución | Categoría | Doctor/a | Perfil docente | Área | |
|---|---|---|---|---|---|---|
| GARCIARENA HUALDE, UNAI | Universidad del País Vasco/Euskal Herriko Unibertsitatea | Profesorado Adjunto (Ayudante Doctor/A) | Doctor | Bilingüe | Arquitectura y Tecnología de Computadores | unai.garciarena@ehu.eus |
| NAVARIDAS PALMA, JAVIER | Universidad del País Vasco/Euskal Herriko Unibertsitatea | Investigador Ramón Y Cajal | Doctor | No bilingüe | ** n o c o n s t a e l a r e a * ó " á r e a p r o v i s i o n a l" | javier.navaridas@ehu.eus |
Competencias
| Denominación | Peso |
|---|---|
| Que los estudiantes entiendan las necesidades y requisitos de problemas de ciencia de datos correspondiente a diferentes disciplinas científicas, trabajando de forma conjunta con los usuarios. | 0.0 % |
| Que los estudiantes sean capaces de ofrecer soluciones técnicas adecuadas y adaptadas a las necesidades asociadas cada problema, documentando adecuadamente dichas soluciones. | 0.0 % |
Tipos de docencia
| Tipo | Horas presenciales | Horas no presenciales | Horas totales |
|---|---|---|---|
| Magistral | 15 | 22.5 | 37.5 |
| P. Ordenador | 15 | 22.5 | 37.5 |
Actividades formativas
| Denominación | Horas | Porcentaje de presencialidad |
|---|---|---|
| Clases magistrales | 15.0 | 100 % |
| Prácticas de ordenador | 15.0 | 100 % |
| Trabajo personal del alumno/a | 45.0 | 0 % |
Sistemas de evaluación
| Denominación | Ponderación mínima | Ponderación máxima |
|---|---|---|
| Ensayo, trabajo individual y/o en grupo | 50.0 % | 100.0 % |
| Examen escrito | 0.0 % | 50.0 % |
Resultados del aprendizaje de la asignatura
Después de realizar este curso, los estudiantes podrán:Comprender la diferencia entre las arquitecturas de los centros de datos y su relación con los requisitos a los que responden: HPC, procesamiento de datos, o almacenamiento de datos.
Conocer las diferentes opciones de software disponibles para dichas arquitecturas de hardware y cómo sus características coinciden con los diferentes casos de uso.
Implementar tales arquitecturas.
Convocatoria ordinaria: orientaciones y renuncia
La evaluación constará de dos partes, un examen escrito y un conjunto de trabajos prácticos. El examen (50% de la nota final) cubrirá los conceptos teóricos vistos en clase, mientras que la parte práctica (50% restante de la nota final, dividida en varios trabajos) consistirá en implementar las arquitecturas de software en entornos virtuales.Convocatoria extraordinaria: orientaciones y renuncia
La evaluación constará de dos partes, un examen escrito y un conjunto de trabajos prácticos. El examen (50% de la nota final) cubrirá los conceptos teóricos vistos en clase, mientras que la parte práctica (50% restante de la nota final, dividida en varios trabajos) consistirá en implementar las arquitecturas de software en entornos virtuales.Temario
1. Infraestructuras de procesamiento1. Nube
2. Red
3. Centros de datos
2. Orquestación de servicios
1. Virtualización
3. Arquitecturas de procesamiento
1. Computación de alto rendimiento
2. Big Data
4. Plataformas de procesamiento de Big Data
1. Batch
2. Streaming e IoT
Bibliografía
Materiales de uso obligatorio
Aunque no es necesario, es muy recomendable disponer de un ordenador portátil personal con potencia suficiente para realizar tareas de virtualización para el desarrollo de las actividades propuestas en la asignatura.Bibliografía básica
Tom White. Hadoop: The Definitive Guide: Storage and Analysis at Internet Scale. 2015.Ben Sharma. Architecting Data Lakes, 2nd Edition. 2018.
Neha Narkhede et al. "Kafka" The Definitive Guide: Real-time data and stream processing at scale. 2017.
Jan Kunigk et al. Architecting Modern Data Platforms: A Guide to Enterprise Hadoop at Scale. 2019.
Sam Alapati. Expert Hadoop Administration: Managing, Tuning, and Securing Spark, YARN, and HDFS. 2017.
Revistas
Journal of Big Data (Springer)Big data research (Elsevier)