Une formation sur mesure ?

Devis immédiat

Nos clients

logos clients Nativo formation
Formations inter / intra entreprise
Revenir aux formations Hadoop

Formation Hadoop - Data Analyst : Analyse de données en environnement

Ref. HAD01

durée

3 jours

Tarif

2050€ ht

Toutes les dates

Objectifs

  • Comment Hadoop Distributed File System (HDFS) et YARN/MapReduce fonctionnent
  • Comment explorer HDFS
  • Comment suivre l’exécution d’une application YARN
  • Comment fonctionnent et comment utiliser les différents outils de manipulation de la donnée :
  • Hue : Utilisation de l’interface unifiée
  • Hive, Pig : Les générateurs de MapReduce
  • Tez : L’optimisation des générateurs de MapReduce
  • Sqoop : Comment importer les données de l’entreprise dans un cluster Hadoop?
  • Oozie : Comment organiser les exécutions des différentes applications ?

Public

  • Toutes personnes qui devront manipuler les données dans un cluster Apache Hadoop

Prérequis

  • Avoir une expérience dans la manipulation de données
  • Une connaissance préliminaire d’Hadoop n’est pas exigée

Programme

INTRODUCTION

  • Présentation générale d’Hadoop
  • Exemples d’utilisation dans différents secteurs
  • Historique et chiffres clés : Quand parle-t-on de Big Data ?

L’ECOSYSTEME D’HADOOP

  • Le système de fichier HDFS
  • Le paradigme MapReduce et l’utilisation à travers YARN

MANIPULATION DES DONNEES DANS UN CLUSTER HADOOP

  • Hue : Comment fonctionne cette interface web ?
  • Hive : Pourquoi Hive n’est pas une base de données ?
  • Requête sur Hive
  • Utilisation de HCatalog
  • Utilisation avancée sur Hive
  • Utilisation de fonctions utilisateurs
  • Paramétrage de requête

Pig : Fonctionnement de Pig

  • Programmation avec Pig Latin
  • Utilisation du mode Local
  • Utilisation de fonctions utilisateurs

Tez : Qu’est-ce que Tez ?

  • Comment et quand l’utiliser ?

Oozie : Fonctionnement de Oozie

  • Création de Workflows avec Oozie
  • Manipulation des workflows
  • Ajout d’éléments d’exploitation dans les workflows
  • Ajout de conditions d’exécution
  • Paramétrage des workflows

Sqoop : A quoi sert Sqoop ?

  • Chargement des données depuis une base de données relationnelle
  • Chargement des données depuis Hadoop
  • Utilisation et paramétrage avancée
  • Les particularités des distributions : Impala, Hawq
  • Quelles sont les bonnes pratiques d’utilisation des différents outils ?

Moyens et Méthodes Pédagogiques

  • La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions
  • Un poste par stagiaire
  • Formateur Expert
  • Remise d’une documentation pédagogique papier ou numérique pendant le stage

Validation des acquis

  • Auto évaluation des acquis par le stagiaire via un questionnaire en fin de formation
  • Attestation de fin de stage remise avec la facture