Data Engineering on AWS - A Streaming Data Pipeline Solution

via AWS Skill Builder

AWS Skill Builder

414 Cours


course image

Aperçu

Dans ce cours, vous apprendrez à construire des solutions d'analyse de données en streaming en utilisant les services AWS, y compris Amazon Kinesis, Amazon Data Firehose, et Amazon Managed Streaming pour Apache Kafka (Amazon MSK). Kinesis est un service de streaming de données en temps réel massivement évolutif et durable. Amazon MSK offre un service Apache Kafka sécurisé, entièrement géré et hautement disponible.

Vous apprendrez comment Kinesis et Amazon MSK s'intègrent aux services AWS tels que AWS Glue et AWS Lambda. Le cours aborde les composants d'ingestion de données en streaming, de stockage de flux et de traitement de flux de la pipeline d'analyse de données. Vous apprendrez également à appliquer les meilleures pratiques en matière de sécurité, de performance et de gestion des coûts à l'exploitation de Kinesis et Amazon MSK.

Le cours est divisé en différents modules. Les modules d'apprentissage introduisent de nouveaux concepts et les services AWS que vous pouvez utiliser pour construire votre solution. Les modules de laboratoire sont des activités pratiques approfondies avec des instructions étape par étape pour vous permettre d'appliquer ce que vous avez appris.

Activités : Contenu interactif, vidéos, vérifications des connaissances, évaluations, et laboratoires pratiques

Objectifs du cours :

  • Reconnaître un défi client en matière d'analyse et décrire la solution AWS appropriée pour le résoudre en mettant en avant une architecture de données en streaming.
  • Décrire les sources de données adaptées aux applications de streaming et la manière dont ces données sont ingérées.
  • Identifier les services de stockage à court terme et à long terme pour les données en streaming.
  • Décrire comment concevoir et mettre en œuvre des solutions de traitement des données en temps réel.
  • Reconnaître comment servir les données en streaming pour la consommation par les utilisateurs finaux.
  • Décrire comment optimiser un pipeline de données en streaming en utilisant Amazon Kinesis, Amazon MSK, et Amazon Redshift.
  • Identifier les meilleures pratiques pour sécuriser un pipeline de données en streaming.

Public visé :

  • Ingénieur de données
  • Analyste de données
  • Architecte de données
  • Ingénieur en intelligence d'affaires

Compétences recommandées :

  • 2-3 années d'expérience en ingénierie des données
  • 1-2 années d'expérience pratique avec les services AWS
  • Avoir complété AWS Cloud Practitioner Essentials ou équivalent
  • Avoir complété Fundamentals of Analytics on AWS Partie 1 et 2
  • Avoir complété Data Engineering on AWS – Foundations

Plan du cours :

Module 1 : Construction d'une Solution de Pipeline de Données en Streaming

Ce cours montre comment identifier, sélectionner, et configurer les services AWS appropriés pour construire une solution de pipeline de données en streaming pour atteindre les objectifs commerciaux d'un client fictif.

  • Introduction
  • Ingérer des Données de Sources de Flux
  • Stockage des Données de Streaming
  • Traitement des Données
  • Analyse des Données
  • Évaluation Finale
  • Conclusion

Module 2 : Analyse en Streaming avec Amazon Managed Service pour Apache Flink (Lab)

Ce laboratoire est une activité pratique étape par étape pour construire un pipeline de traitement de flux en ingérant des données de clic et en enrichissant ces données de clic avec des données de catalogue stockées dans Amazon Simple Storage Service (Amazon S3). Vous effectuez des analyses sur les données enrichies pour identifier les ventes par catégorie en temps réel et visualiser le résultat.

  • Aperçu du laboratoire
  • Tâche 1 : Configuration de l'environnement du carnet de notes Zeppelin

    Programme


    Enseigné par


    Étiquettes

    united states