Une formation sur mesure ?

Devis immédiat

Nos clients

Ils nous font confiance.

logos clients Nativo formation
Formations inter / intra entreprise
Revenir aux formations SQL Server 2016

Formation M20775 - SQL Server 2016 Perform Data Engineering on Microsoft HD Insight

Ref. M20775

CPF

durée

5 jours

Tarif

2490€ ht

picture_as_pdfprint

Objectifs

Donner aux participants les capacités pour planifier et mettre en œuvre de grands flux de données sur HDInsight

Public

  • Ingénieurs de données
  • Architectes de données
  • Data Scientists
  • Développeurs de données

Prérequis

En plus de leur expérience professionnelle, les participants devraient avoir :

  • Expérience de programmation R et être familiarisé avec les paquets R communs
  • Connaissance des méthodes statistiques communes et des meilleures pratiques d'analyse de données
  • Connaissances de base du système d'exploitation Microsoft Windows et de ses fonctionnalités principales
  • Connaissance pratique des bases de données relationnelles

Programme

Démarrer avec HDInsight

  • Que sont les Big Data ?
  • Introduction à Hadoop
  • Travailler avec les fonctions de MapReduce
  • Présentation de HDInsight

Déployer des clusters HDInsight

  • Identification des types de cluster HDInsight
  • Gestion des clusters HDInsight en utilisant le portail Azure
  • Gestion des clusters HDInsight en utilisant Azure PowerShell

Autoriser les utilisateurs à accéder aux ressources

  • Clusters non connectés au domaine
  • Configuration de clusters HDInsight connectés au domaine
  • Gestion des clusters HDInsight connectés au domaine

Charger des données dans HDInsight

  • Stockage des données pour le traitement HDInsight
  • Utilisation des outils de chargement de données
  • Maximiser la valeur des données stockées

Dépanner HDInsight

  • Analyse des journaux HDInsight
  • YARN logs
  • Heap dumps
  • Operations Management Suit

Mettre en œuvre des solutions par lot

  • Stockage Apache Hive
  • Requêtes de données HDInsight utilisant Hive and Pig
  • Opérations HDInsight

Concevoir des solutions ETL par lot pour de grands volumes de données avec Spark

  • Qu'est-ce que Spark ?
  • ETL avec Spark
  • Performance de Spark

Analyser les données avec Spark SQL

  • Implémentation de requêtes itératives et interactives
  • Effectuer une analyse de données exploratoires

Analyser les données avec Hive et Phoenix

  • Mettre en place des requêtes interactives pour les grandes données avec Hive
  • Effectuer une analyse de données exploratoires à l'aide de Hive
  • Effectuer un traitement interactif en utilisant Apache Phoenix

Analyse de flux

  • Analyse de flux
  • Processus de diffusion des données à partir de l'analyse des flux
  • Gérer les travaux d'analyse de flux

Implémenter des solutions en streaming avec Kafka et Hbase

  • Création et déploiement d'un cluster Kafka
  • Publication, consommation et traitement des données à l'aide du Cluster Kafka
  • Utilisation de HBase pour stocker et rechercher des données

Développer de grandes solutions de traitement en temps réel avec Apache Storm

  • Péréniser les données sur le long terme
  • Transmission des données avec Storm
  • Création de topologies Storm
  • Configurer Apache Storm

Créer des applications Spark Streaming

  • Utilisation de Spark Streaming
  • Création d'applications Spark structurée pour le Streaming
  • Persistance et visualisation

Moyens et Méthodes Pédagogiques

  • La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions
  • Un poste par stagiaire
  • Formateur Expert
  • Remise d’une documentation pédagogique papier ou numérique pendant le stage

Validation des acquis

  • Auto évaluation des acquis par le stagiaire via un questionnaire en fin de formation
  • Attestation de fin de stage remise avec la facture