Curso de Big Data, analista de datos y HBase Cloudera
Proporcionar los conocimientos y habilidades necesarios acerca de casos de uso de HBase, Hadoop y RDBMS, uso de Hbase Shell, diseño de esquemas con Hbase, conexión a Hbase mediante la Java API, configuración y administración de un clúster Hbase, fundamentos de Apache Hadoop y datos ETL (extracción, transformación y carga), unión de múltiples conjuntos de datos y análisis de datos dispares con Pig, organización de datos en tablas y simplificación de complejas querys con Hive, realizar análisis interactivos en tiempo real de datos masivos usando SQL con Impala y seleccionar la mejor herramienta de análisis para una tarea concreta con Hadoop.
Información del curso
Tests de autoevaluación
Las unidades didácticas incluyen tests de autoevaluación finales para fijar los conocimientos adquiridos.
Diploma de superación
Los alumnos pueden descargar su diploma inmediatamente después de superar el curso.
Foros del curso
Los alumnos pueden utilizarlos para contactar con los tutores e intercambiar conocimientos con otros compañeros.
Curso de Big Data, analista de datos y HBase Cloudera
Objetivos
Proporcionar los conocimientos y habilidades necesarios acerca de casos de uso de HBase, Hadoop y RDBMS, uso de Hbase Shell, diseño de esquemas con Hbase, conexión a Hbase mediante la Java API, configuración y administración de un clúster Hbase, fundamentos de Apache Hadoop y datos ETL (extracción, transformación y carga), unión de múltiples conjuntos de datos y análisis de datos dispares con Pig, organización de datos en tablas y simplificación de complejas querys con Hive, realizar análisis interactivos en tiempo real de datos masivos usando SQL con Impala y seleccionar la mejor herramienta de análisis para una tarea concreta con Hadoop.
Dirigido a
Profesionales TI analistas de datos, analistas de negocio, desarrolladores y administradores.
Requisitos previos
Conocimientos y experiencia en bases de datos, modelado de datos, SQL y UNIX/Linux.
Contenidos del curso
· Introducción a Hadoop y componentes · Introducción y conceptos de Hbase
· Hbase Shell · Creación de tablas · Hbase Java API · Administración de llamadas
· Obtención de datos de Shell, API Java y Thrift API · Adición y actualización de datos en la Shell · Conducir datos de Shell, API Java y Thrift API · Adición y actualización de los datos con API · Scan API · Trabajando con Eclipse
· Componentes del clúster · Como escalar Hbase · Escribir y leer caminos · Compactacións y Splits
· Instalación, configuración y consideraciones · MapReduce y Hbase clusters · Replicación y recuperación ante desastres
· Desde RDBMS al diseño de Hbase Schema · Aplicaciones centradas en el diseño. Diseño de Row Key
· Familias de columnas · Consideraciones sobre el diseño de Schema
· Open TSDB · Kiji · Hbase and Hive
· HDFS · MapReduce · Ecosistema Hadoop · Lab Scenario · Introducción de datos con herramientas Hadoop
· Introducción, características y casos de uso de Pig. Sintaxis Pig Latin · Carga de datos. Tipos de datos simples. Definiciones de campo · Salida de datos · Schema · Filtrado y ordenación de datos. Funciones de uso común · Uso de Pig para un procesamiento ETL · Procesamiento de datos complejos con Pig · Técnicas de combinación de conjuntos de datos · Unión y división de conjuntos de datos · Práctica sobre análisis de conjuntos de datos dispares con Pig · Macros e importaciones · UDFs · Agregar flexibilidad con parámetros. Aportar funciones · Práctica sobre ampliación de Pig con Streaming y UDF
· Troubleshooting Ping · Hadoop Wb UI · Muestreo y depuración de datos · Mejora de rendimiento de los Pig Jobs Performance
· Hive Schema y almacenamiento de datos. Comparativas con bbdd tradicionales · Bases de datos y tablas Hive · Basic HiveQl Syntax · Tipos de datos. Unión de conjunto de datos. Funciones · Práctica sobre ejecución de Hive queries en Shell, scripts y Hue
· Creación de bbdd y gestión de tablas. Formato de datos Hive · Tablas auto gestionadas · Control de acceso de datos · Práctica sobre gestión de datos con Hive · Funciones de cadena. Expresiones regulares · Sentiment Analysis y N-Grams
· Entendimiento de la query performance · Plan de ejecución · Particionar · Bucketing · Indexing fecha · SerDes · Funciones definidas por el usuario y queries parametrizadas · Práctica sobre transformación de datos con Hive
· ¿Qué es Impala? Uso de Impala Shell · Sintaxis básica. Tipos de datos. · Filtrado, ordenación y limitación de datos · Inscripción y agrupación de datos · Análisis interactiva con Impala
· MapReduce · Pig · Hive · Impala
Otros cursos que te pueden interesar
Administración de BBDD Microsoft SQL Server
Informática profesionales
Programación de Windows Azure y servicios web
Informática profesionales
Programación de aplicaciones web con Microsoft ASP.NET MVC 4
Informática profesionales