Une formation sur mesure ?

Devis immédiat

Nos clients

logos clients Nativo formation
Formations inter / intra entreprise
Revenir aux formations Google Cloud

Formation Google Cloud Platform - Ingénierie de données

Ref. CP200DE

durée

4 jours

Tarif

2890€ ht

Objectifs

  • Savoir concevoir et développer des systèmes de traitement de données sur Google Cloud Platform
  • Savoir traiter des données par lot ou par flux en implémentant des pipelines de données d'autoscaling sur Cloud Dataflow
  • Comprendre comment obtenir des informations métier à partir de très grands ensembles de données à l'aide de Google BigQuery
  • Pouvoir établir des prédictions avec des modèles de Machine Learning en utilisant Tensorflow et Cloud ML
  • Savoir tirer parti des données non structurées à l'aide de Spark et des API de Machine Learning sur Cloud Dataproc
  • Comprendre comment activer Instant Insights à partir des données par flux

Public

  • Développeurs expérimentés en charge des transformations du Big Data

Prérequis

  • Avoir suivi la formation "Google Cloud Platform - Les fondamentaux du Big Data et du Machine Learning" (CC381) ou bénéficier d'une expérience équivalente
  • Maîtriser les principes de base des langages de requête courants tels que SQL
  • Avoir de l'expérience en modélisation, extraction, transformation et chargement des données
  • Savoir développer des applications à l'aide d'un langage de programmation courant tel que Python
  • Savoir utiliser le Machine Learning et/ou les statistiques
  • Pour suivre cette formation dans des conditions optimales, nous vous recommandons de venir en formation avec un ordinateur portable

Programme

Présentation de Google Cloud Dataproc

  • Créer et gérer des clusters
  • Exploiter des types de machines personnalisés et des noeuds de calcul préemptifs
  • Faire évoluer et supprimer des clusters
  • Atelier : Créer des clusters Hadoop avec Google Cloud Dataproc

Exécution de tâches Dataproc

  • Exécuter des tâches Pig et Hive
  • Séparer le stockage et le calcul
  • Atelier : Exécuter des tâches Hadoop et Spark avec Dataproc
  • Atelier : Envoyer et surveiller des tâches

Intégrer Dataproc à Google Cloud Platform

  • Personnaliser un cluster à l'aide d'actions d'initialisation
  • Assistance BigQuery
  • Atelier : Exploiter les services Google Cloud Platform

Analyse des données non structurées avec les API de Machine Learning de Google

  • API de Machine Learning Google
  • Cas d'utilisation courants du ML
  • Appeler des API de ML
  • Atelier : Ajouter les capacités de Machine Learning à l'analyse Big Data

Analyse des données sans serveur avec BigQuery

  • Qu'est-ce que BigQuery ?
  • Requêtes et fonctions
  • Atelier : Écrire des requêtes dans BigQuery
  • Charger des données dans BigQuery
  • Exporter des données à partir de BigQuery
  • Atelier : Charger et exporter des données
  • Champs imbriqués et répétés
  • Interroger plusieurs tables
  • Atelier : Requêtes complexes
  • Performances et tarification

Pipelines de données d'autoscaling sans serveur avec Dataflow

  • Le modèle de programmation Beam
  • Pipelines de données dans Beam Python
  • Pipelines de données dans Beam Java
  • Atelier : Écrire un pipeline Dataflow
  • Traitement adaptable du Big Data avec Beam
  • Atelier : MapReduce dans Dataflow
  • Intégrer des données supplémentaires
  • Atelier : Entrées secondaires
  • Gérer des données par flux
  • Architecture de référence GCP

Premiers pas avec le Machine Learning

  • Qu'est-ce que le Machine Learning (ML) ?
  • ML efficace : concepts et types
  • Ensembles de données de ML : généralisation
  • Atelier : Explorer et créer des ensembles de données de ML

Créer des modèles de ML avec TensorFlow

  • Premiers pas avec TensorFlow
  • Atelier : Utiliser tf.learn
  • Graphiques et boucles TensorFlow + atelier
  • Atelier : Utiliser TensorFlow de bas niveau + arrêt prématuré
  • Surveiller l'apprentissage ML
  • Atelier : Graphiques d'apprentissage TensorFlow

Faire évoluer les modèles de ML avec Cloud ML

  • Pourquoi utiliser Cloud ML ?
  • Créer le package d'un modèle TensorFlow
  • Apprentissage de bout en bout
  • Atelier : Exécuter un modèle de ML localement et sur le Cloud

Extraction de caractéristiques

  • Créer des fonctionnalités pertinentes
  • Transformer les entrées
  • Fonctionnalités synthétiques
  • Prétraitement avec Cloud ML
  • Atelier : Extraction de caractéristiques

Architecture des pipelines d’analyse par flux

  • Défis du traitement des données par flux
  • Gérer les volumes de données variables
  • Gérer les données non triées/en retard
  • Atelier : Concevoir un pipeline de flux de données

Ingestion de volumes de variables

  • Qu'est-ce que Cloud Pub/Sub ?
  • Fonctionnement : Thèmes et abonnements
  • Atelier : Simulateur

Mise en oeuvre de pipelines par flux

  • Défis du traitement par flux
  • Gestion des données en retard : filigranes, déclenchements et accumulation
  • Atelier : Pipeline de traitement des données par flux pour le trafic en direct

Analyse de flux de données et tableaux de bords

  • Analyses de flux de données : prendre des décisions à partir des données
  • Interroger les données par flux avec BigQuery
  • Qu'est-ce que Google Data Studio ?
  • Atelier : Créer un tableau de bord en temps réel pour visualiser les données traitées

Haut débit et faible latence avec Bigtable

  • Qu'est-ce que Cloud Spanner ?
  • Concevoir un schéma Bigtable
  • Ingestion dans Bigtable
  • Atelier : Flux dans Bigtable

Certification

  • Cette formation prépare au test suivant : Professional Data Engineer et entre en jeu dans le cursus de certification : Google Cloud Certified Professional Data Engineer

Moyens et Méthodes Pédagogiques

  • La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions
  • Un poste par stagiaire
  • Formateur Expert
  • Remise d’une documentation pédagogique papier ou numérique pendant le stage

Validation des acquis

  • Auto évaluation des acquis par le stagiaire via un questionnaire en fin de formation
  • Attestation de fin de stage remise avec la facture