Formation Hadoop - Data Analyst : Analyse de données en environnement

Ref. HAD01

durée

3 jours

Tarif

1590€ ht

picture_as_pdfprint

Nos clients

Ils nous font confiance.

logos clients Nativo formation
Formations inter / intra entreprise
Revenir aux formations Hadoop

Formation Hadoop - Data Analyst : Analyse de données en environnement

Objectifs

Cette formation Data Analyst – Analyse de données en environnement Hadoop vous permettra de savoir :

  • Comment Hadoop Distributed File System (HDFS) et YARN/MapReduce fonctionnent
  • Comment explorer HDFS
  • Comment suivre l’exécution d’une application YARN
  • Comment fonctionnent et comment utiliser les différents outils de manipulation de la donnée :
  • Hue : Utilisation de l’interface unifiée
  • Hive, Pig : Les générateurs de MapReduce
  • Tez : L’optimisation des générateurs de MapReduce
  • Sqoop : Comment importer les données de l’entreprise dans un cluster Hadoop?
  • Oozie : Comment organiser les exécutions des différentes applications ?

Public

Analyse de données en environnement Hadoop est destinée aux personnes qui devront manipuler les données dans un cluster Apache Hadoop.

Prérequis

Analyse de données en environnement Hadoop nécessite d'avoir une expérience dans la manipulation de données. Une connaissance préliminaire d’Hadoop n’est pas exigée.

Programme

INTRODUCTION

  • Présentation générale d’Hadoop
  • Exemples d’utilisation dans différents secteurs
  • Historique et chiffres clés : Quand parle-t-on de Big Data ?

L’ECOSYSTEME D’HADOOP

  • Le système de fichier HDFS
  • Le paradigme MapReduce et l’utilisation à travers YARN

MANIPULATION DES DONNEES DANS UN CLUSTER HADOOP

  • Hue : Comment fonctionne cette interface web ?
  • Hive : Pourquoi Hive n’est pas une base de données ?
  • Requête sur Hive
  • Utilisation de HCatalog
  • Utilisation avancée sur Hive
  • Utilisation de fonctions utilisateurs
  • Paramétrage de requête

Pig : Fonctionnement de Pig

  • Programmation avec Pig Latin

  • Utilisation du mode Local

  • Utilisation de fonctions utilisateurs

  • Tez : Qu’est-ce que Tez ?

  • Comment et quand l’utiliser ?

Oozie : Fonctionnement de Oozie

  • Création de Workflows avec Oozie
  • Manipulation des workflows
  • Ajout d’éléments d’exploitation dans les workflows
  • Ajout de conditions d’exécution
  • Paramétrage des workflows

Sqoop : A quoi sert Sqoop ?

  • Chargement des données depuis une base de données relationnelle
  • Chargement des données depuis Hadoop
  • Utilisation et paramétrage avancée
  • Les particularités des distributions : Impala, Hawq
  • Quelles sont les bonnes pratiques d’utilisation des différents outils ?

Moyens et Méthodes Pédagogiques

  • La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions
  • Un poste par stagiaire
  • Formateur Expert
  • Remise d’une documentation pédagogique papier ou numérique pendant le stage

Validation des acquis

  • Auto évaluation des acquis par le stagiaire via un questionnaire en fin de formation
  • Attestation de fin de stage remise avec la facture