Curso Big Data y Supercomputación. Transformando datos en conocimiento. (2da edición)

Versión para impresiónVersión en PDF
Jueves 08 de Junio de 2017, 09:00 horas.

Curso Big data y Supercomputación

El curso "Big Data y Supercomputación: Transformando datos en conocimiento", tendrá lugar del 8 al 14 de junio, en horario de tarde, en el Centro Universitario de Mérida. Este curso tiene una duración de 23 horas, y se encuentra dirigido principalmente a egresados universitarios en Ingeniería Informática e Ingeniería de Telecomunicación, estudiantes de 3º y 4º de las mismas ingenierías y estudiantes de doctorado o máster de titulaciones afines.

El principal objetivo es que los asistentes puedan comprobar qué aporta la supercomputación cuando se necesita procesar conjuntos de datos con características que los convierten en datos de tipo big data (volumen, tipos de datos, etc.) para obtener conocimiento. Para ello, el curso se centrará, por una parte, en el flujo de datos de procesamiento de big data mediante distintos servicios del framework Hadoop (como Flume, HDFS o Spark), ya desplegados en un clúster. Además, cobrará especial importancia el desarrollo de software para paralelizar el procesamiento de esos datos, para así obtener conocimiento después de su ejecución en el supercomputador LUSITANIA. Por otra parte, también se abordará la administración de los servicios utilizados.

Se expedirán certificados de asistencia y aprovechamiento. El acceso será libre, aunque limitado a un máximo de 25 asistentes, por lo que se requiere la realización de una inscripción on-line previa.

Formulario de inscripción en el curso Big Data y Supercomputación

Horario:

  • Mañanas de 9 a 14 horas.

A continuación se muestra el programa completo del curso:

Bloque 1: Presentación (1 hora)

  • Presentación de LUSITANIA I y II.
  • Entorno de trabajo.
  • Proyectos de la Fundación.
  • Introducción a big data y ejemplos para mostrar la problemática del big data.
  • Retos al procesar datos big data.

Bloque 2: Supercomputación y framework de Hadoop (11 horas)

  • MV de Cloudera a través de OpenNebula.
  • Hadoop: Justificación y características.
  • HDFS: Características, arquitectura, rendimiento, configuración, lectura y escritura.
  • Práctica de Hadoop: clúster HDFS y uso y administración del mismo.
  • Módulos básicos del ecosistema de Apache para Hadoop.
  • Casos prácticos de recolección de datos para su almacenamiento en el clúster.
  • Procesamiento de datos en tiempo real.
  • Spark: motivación y servicios.
  • Transformaciones y Acciones en Spark.
  • Planificador de DAGs (Directed Acyclic Graph).
  • Práctica: estrategias de definición de map y reduce con Spark.

Bloque 3: Data Science (8 horas)

  • Metodología y buenas prácticas para el procesamiento de datos científicos.
  • Herramientas para la exploración de datos en R.
  • Detección de patrones en conjuntos de datos científicos en R.
  • Práctica con RSpark.
  • Machine learning: conceptos básicos.
  • Bootstraping.
  • Práctica: ML en Spark con MLib (Machine Learning Library).

Bloque 4: Casos de éxito con Big Data (3 horas)

  • Ponente externo (aún por determinar).
  • CénitS: HPC+BD+CC.
  • CénitS: ConsumaR.