Ce que vous devez savoir avant
Vous commencez

Débute 4 June 2026 20:10

Se termine 4 June 2026

00 Jours
00 Heures
00 Minutes
00 Secondes
course image

Snowflake - Construire et Architecturer des Pipelines de Données en Utilisant AWS

Améliorez vos compétences en architecture de pipelines de données en utilisant la puissante combinaison de Snowflake et AWS. Ce cours fournit une formation complète sur divers aspects des pipelines de données, y compris l'ingestion de données, l'optimisation et le streaming. Vous explorerez également l'intégration avec des outils de reno.
Packt via Coursera

Packt

2868 Cours


12 hours 57 minutes

Amélioration optionnelle disponible

Not Specified

Progressez à votre rythme

Free Online Course (Audit)

Amélioration optionnelle disponible

Aperçu

Unlock the power of Snowflake and AWS to build robust, scalable data pipelines that integrate seamlessly with your data ecosystem. This course equips you with the tools to design, optimize, and maintain efficient data pipelines, empowering you to master modern data engineering practices.

Start by understanding Snowflake's architecture, virtual warehouses, and billing components, and then delve into creating and managing tables, views, and partitions. Explore advanced concepts such as clustering, performance optimization, and query caching while gaining hands-on experience through practical labs.

With these foundations, you'll progress to data ingestion, extraction workflows, and continuous data pipelines using Snowflake and AWS S3. Expand your expertise with advanced topics like user-defined functions, external functions, and Snowflake's integration with Python, Spark, and Airflow.

Learn to handle real-time data streaming with Kafka and Snowflake, implement governance features like row-level security, and deploy Snowpark for machine learning pipelines. The course culminates in real-world projects that reinforce your knowledge through practice.

This course is ideal for data engineers, architects, and cloud professionals seeking to build enterprise-grade pipelines. A foundational understanding of SQL and cloud platforms like AWS is recommended.

With its intermediate difficulty, this course bridges the gap between foundational knowledge and advanced data engineering skills.

Programme

  • Introduction au Cours
  • Dans ce module, nous poserons les bases de l'ensemble du cours en décrivant la feuille de route, en discutant des prérequis et en partageant des stratégies de réussite. Ces connaissances fondamentales vous assureront d'être bien préparé pour naviguer et exceller dans le matériel à venir.
  • Introduction à Snowflake et AWS
  • Dans ce module, nous explorerons les concepts fondamentaux de l'entreposage de données et son importance dans un écosystème de données. Nous examinerons de plus près l'architecture de Snowflake, la hiérarchie des objets et les entrepôts virtuels. De plus, vous apprendrez à connaître les composants de facturation de Snowflake, le suivi de la consommation et la mise en place de moniteurs de ressources, vous assurant ainsi d'être équipé pour gérer les ressources efficacement.
  • Snowflake - Tables
  • Dans ce module, nous explorerons les différents types de tables disponibles dans Snowflake, fournissant une introduction complète à leurs structures et leurs buts. Vous acquerrez une expérience pratique grâce à des laboratoires axés sur la création de tables, de vues et de vues sécurisées. Nous explorerons également les nuances des vues, y compris les vues matérialisées et sécurisées, pour améliorer votre compréhension des capacités de présentation des données de Snowflake.
  • Snowflake - Partitionnement, Clustering et Optimisation des Performances
  • Dans ce module, nous examinerons les fonctionnalités avancées d'organisation des données de Snowflake, en nous concentrant sur les micropartitions et les clés de clustering. Grâce à des laboratoires pratiques, vous apprendrez à sélectionner et configurer des clés de clustering, analyser des profils de requête, et tirer parti des mécanismes de mise en cache pour améliorer les performances. En outre, nous explorerons les avantages de l'optimisation des recherches pour améliorer encore l'efficacité de la récupération et du traitement des données.
  • Snowflake - Chargement/Ingération et Extraction des Données
  • Dans ce module, nous explorerons les processus de bout en bout pour charger et extraire des données dans Snowflake. Vous apprendrez comment connecter Snowflake avec AWS S3, ingérer des données structurées et semi-structurées et implémenter une ingestion continue avec Snowpipe. De plus, nous aborderons des aspects critiques tels que l'estimation des coûts et les considérations clés pour assurer des opérations de données efficaces. Des laboratoires pratiques solidifieront votre compréhension de ces concepts.
  • Snowflake - Tâches et Planification des Requêtes
  • Dans ce module, nous approfondirons les fonctionnalités de gestion des tâches et de planification des requêtes de Snowflake. Vous apprendrez comment créer et gérer des tâches, construire des arbres de tâches complexes pour des flux de travail dépendants, et surveiller leur exécution. Nous explorerons également les connaissances en matière de facturation et l'historique des requêtes pour assurer des opérations efficaces et rentables. Grâce à des laboratoires pratiques, vous acquerrez des compétences pratiques pour implémenter et optimiser des tâches dans Snowflake.
  • Snowflake - Flux et Capture des Données Modifiées
  • Dans ce module, nous découvrirons la puissance des flux dans Snowflake pour implémenter des flux de travail de Capture des Données Modifiées (CDC). Vous apprendrez à utiliser des flux standard et en append-only, à gérer la rétention des données et à gérer la désuétude des flux. Grâce à une série de laboratoires et un projet, vous créerez et mettrez en œuvre des pipelines de bout en bout qui tirent parti des flux pour suivre et traiter les modifications de données efficacement. Cette expérience pratique solidifiera votre compréhension de la CDC dans les architectures de données modernes.
  • Snowflake - Fonctions Définies par l'Utilisateur
  • Dans ce module, nous explorerons les Fonctions Définies par l'Utilisateur (UDF) dans Snowflake, une fonctionnalité puissante pour étendre la fonctionnalité de la base de données. Vous apprendrez à connaître les différents types de UDF, y compris les UDF scalaires, tabulaires et basés sur JavaScript, et acquerrez une expérience pratique dans leur mise en œuvre. De plus, nous discuterons du pushdown dans les UDF et de son impact, ainsi que des meilleures pratiques pour écrire des UDF sécurisées afin d'assurer la confidentialité et la conformité des données.
  • Snowflake - Fonctions Externes
  • Dans ce module, nous explorerons les capacités des fonctions externes dans Snowflake pour interagir avec des systèmes externes. Vous apprendrez comment déployer des fonctions AWS Lambda, créer et sécuriser une API Gateway, et intégrer ces composants avec Snowflake pour construire des fonctions externes. Grâce à des laboratoires pratiques, vous acquerrez des compétences pratiques en configurant et déployant ces intégrations puissantes pour étendre la fonctionnalité de Snowflake.
  • Snowflake avec Python, Spark et Airflow sur AWS
  • Dans ce module, nous explorerons comment intégrer Snowflake avec Python, Spark, et Airflow sur AWS pour construire des solutions d'ingénierie des données robustes. Vous apprendrez comment connecter Snowflake avec Python localement et sur AWS Glue, paramétrer des scripts et utiliser Pandas pour la manipulation des données. De plus, nous examinerons les emplois PySpark, l'optimisation du pushdown dans Spark 3.1, et la mise en place d'Airflow pour l'orchestration des tâches.
  • Streaming en Temps Réel avec Kafka et Snowflake
  • Dans ce module, nous nous concentrerons sur le streaming en temps réel utilisant Kafka et Snowflake. Vous apprendrez à configurer Kafka sur votre système local, à configurer le connecteur Kafka-Snowflake, et à activer la connectivité sécurisée avec des clés de cryptage. Grâce à des laboratoires pratiques, vous mettrez en œuvre des pipelines de streaming pour ingérer des données en temps réel dans Snowflake, solidifiant votre compréhension de l'intégration des plateformes de streaming modernes avec Snowflake.
  • Snowflake - Protection et Gouvernance des Données
  • Dans ce module, nous explorerons les caractéristiques clés de Snowflake qui assurent une protection et une gouvernance robustes des données. Vous apprendrez à connaître les mécanismes de Time Travel et Failsafe pour la récupération des données, et à implémenter le masquage dynamique des données au niveau des colonnes pour protéger les informations sensibles. De plus, nous couvrirons la sécurité au niveau des lignes et vous guiderons à travers des laboratoires pratiques pour créer et appliquer des politiques d'accès, garantissant un accès contrôlé et conforme aux données.
  • Snowpark - Pour les Pipelines de Données et la Science des Données
  • Dans ce module, nous plongerons dans Snowpark, le cadre puissant de Snowflake pour construire des pipelines de données avancés et soutenir les cas d'utilisation de la science des données. Vous acquerrez une expérience pratique avec le déploiement de fonctions UDF de Python, la création de procédures stockées pour les tâches ETL, et la préparation des données pour l'apprentissage machine. De plus, vous construirez et déploierez des pipelines de formation de modèle et de prédiction utilisant Scikit-Learn, tous propulsés par Snowpark.
  • Conclusion et Plus d'Apprentissage
  • Dans ce module, nous conclurons le cours en réfléchissant aux sujets clés et aux compétences couvertes. Vous recevrez des conseils pour les prochaines étapes, y compris des mises à jour sur les fonctionnalités évolutives de Snowflake et des opportunités d'apprentissage supplémentaires. Cette section finale vous aidera à tracer un chemin pour une croissance continue et une maîtrise de Snowflake et de son écosystème.

Enseigné par

Packt - Course Instructors


Matières

Business