Une formation sur mesure ?

Devis immédiat

Nos clients

logos clients Nativo formation
Formations inter / intra entreprise
Revenir aux formations Google Cloud

Formation Google Cloud Platform - Ingénierie de données

Ref. 5975

durée

4 jours

Tarif

2990€ ht

Toutes les dates

Objectifs

  • Concevoir et construire des systèmes de traitement de données sur Google Cloud Platform
  • Traiter des lots de données de diffusion en implémentant des pipelines de données à mise à l'échelle automatique sur Cloud Dataflow
  • Dériver les perspectives commerciales d'extrêmement grandes ensembles de données utilisant Google BigQuery
  • Former, évaluer et prédire en utilisant des modèles d'apprentissage automatique en utilisant Tensorflow et Cloud ML
  • Tirer parti des données non structurées à l'aide des API Spark et ML sur Cloud Dataproc
  • Activer les informations instantanées à partir des données en continu

Public

  • L'Extraction, le chargement, la transformation, le nettoyage et la validation des données
  • La Conception de pipelines et d'architectures pour le traitement de données
  • La création et le maintien d'un apprentissage automatique et des modèles statistiques
  • L'Interrogation de jeux de données, visualisation des résultats de requête et création de rapports

Prérequis

  • Avoir suivi la formation Google Cloud Platform sur les fondamentaux du Big Data et du Machine Learning (8325) ou posséder une expérience équivalente
  • Connaître un langage de requête commun tel que SQL
  • Avoir une expérience de la modélisation, de l'extraction, de la transformation et du chargement de données
  • Savoir développer des applications en utilisant un langage de programmation commun tel que Python
  • Etre familiarisé avec le machine learning et/ ou les statistiques

Programme

Analyse de données sans serveur avec BigQuery

  • Qu'est-ce que BigQuery
  • Capacités avancées
  • Performance et prix

Canaux de données Autoscaling sans serveur avec Dataflow

Premiers pas avec le Machine Learning

  • Qu'est-ce que le machine Learning (ML)
  • ML efficace: concepts, types
  • Évaluation de ML
  • Ensembles de données ML: généralisation

Construire des modèles ML avec Tensorflow

  • Premiers pas avec TensorFlow
  • Graphes et boucles TensorFlow + lab
  • Surveillance de la formation au ML

Mise à l'échelle des modèles ML avec CloudML

  • Pourquoi Cloud ML?
  • Emballer un modèle TensorFlow
  • Formation de bout en bout

Ingénierie des caractéristiques

  • Créer de bonnes fonctionnalités
  • Transformer les entrées
  • Caractéristiques synthétiques
  • Pré-traitement avec Cloud ML

Architectures ML

  • Large et profond
  • L'analyse d'image
  • Embeddings et séquences
  • Systèmes de recommandation

Présentation de Google Cloud Dataproc

  • Présentation de Google Cloud Dataproc
  • Créer et gérer des clusters
  • Définition des noeuds maître et de travail
  • Tirer parti des types de machines personnalisées et des nœuds de travail préemptifs
  • Création de clusters avec la console Web
  • Clusters de script avec l'interface de ligne de commande
  • Utilisation de l'API REST Dataproc
  • Tarification Dataproc
  • Mise à l'échelle et suppression des clusters

Exécution de Jobs Dataproc

  • Contrôle des versions d'application
  • Soumettre des emplois
  • Accès à HDFS et GCS
  • Hadoop
  • Spark et PySparkCochon et ruche
  • Journalisation et surveillance des travaux
  • Accès aux nœuds maîtres et travailleurs avec SSH
  • Travailler avec PySpark REPL (interpréteur de ligne de commande)

Intégration de Dataproc à Google Cloud Platform

  • Actions d'initialisation
  • Programmation des ordinateurs portables Jupyter / Datalab
  • Accéder à Google Cloud Storage
  • Exploiter les données relationnelles avec Google Cloud SQL
  • Lire et écrire des données en streaming avec Google BigTable
  • Interrogation de données à partir de Google BigQuery
  • Création d'appels API Google à partir de blocs-notes

Comprendre les données non structurées avec les API d'apprentissage machine de Google

  • API Google Machine Learning
  • Cas d'utilisation de ML communs
  • API Vision
  • API de langage naturelTraduire
  • API Speech

Nécessité d'une analyse en continu en temps réel

  • Qu'est-ce que Streaming Analytics?
  • Cas d'utilisation
  • Batch vs Streaming (en temps réel)
  • Terminologies connexes
  • Les produits GCP qui aident à construire pour la haute disponibilité, la résilience, le haut débit, les analyses en temps réel (revue de Pub / Sub et Dataflow)

Architecture des pipelines en streaming

  • Architectures de streaming et considérations
  • Choisir les bons composants Lumières
  • Agrégation en continu
  • Evénements, déclencheurs

Diffuser des données et des événements dans PubSub

  • Sujets et abonnements
  • Publication d'événements dans Pub / Sub
  • Options d'abonnement: Push vs Pull
  • Alertes

Construire un pipeline de traitement de flux

  • Pipelines, PCollections et Transforms
  • Windows, événements et déclencheurs
  • Statistiques d'agrégation
  • Analyse en continu avec BigQuery
  • Alertes à faible volume

Haut débit et faible latence avec Bigtable

  • Considérations de latence
  • Qu'est-ce que Bigtable
  • Concevoir des clés de ligne
  • Considérations de performance

Haut débit et faible latence avec BigTable

  • Qu'est-ce que Google Data Studio?
  • Des données aux décisions

Certification

Cette formation prépare au test suivant : Professional Data Engineer et entre en jeu dans le cursus de certification : Google Cloud Certified Professional Data Engineer

Moyens et Méthodes Pédagogiques

  • La formation est constituée d’apports théoriques, d’exercices pratiques et de réflexions
  • Un poste par stagiaire
  • Formateur Expert
  • Remise d’une documentation pédagogique papier ou numérique pendant le stage

Validation des acquis

  • Auto évaluation des acquis par le stagiaire via un questionnaire en fin de formation
  • Attestation de fin de stage remise avec la facture