Libérez la puissance de Snowflake et AWS pour construire des pipelines de données robustes et évolutifs qui s'intègrent parfaitement à votre écosystème de données. Ce cours vous équipe des outils nécessaires pour concevoir, optimiser et maintenir des pipelines de données efficaces, vous permettant de maîtriser les pratiques modernes de l'ingénierie des données.
Commencez par comprendre l'architecture de Snowflake, les entrepôts virtuels et les composants de facturation, puis plongez dans la création et la gestion de tables, de vues et de partitions. Explorez des concepts avancés comme le clustering, l'optimisation des performances et la mise en cache des requêtes tout en acquérant une expérience pratique grâce à des laboratoires pratiques.
Avec ces bases, vous progresserez vers l'ingestion de données, les flux de travaux d'extraction et les pipelines de données continus utilisant Snowflake et AWS S3. Élargissez votre expertise avec des sujets avancés tels que les fonctions définies par l'utilisateur, les fonctions externes et l'intégration de Snowflake avec Python, Spark et Airflow.
Apprenez à gérer le streaming de données en temps réel avec Kafka et Snowflake, implémentez des fonctionnalités de gouvernance comme la sécurité au niveau des lignes et déployez Snowpark pour les pipelines de machine learning. Le cours se termine par des projets réels qui renforcent vos connaissances par la pratique.
Ce cours est idéal pour les ingénieurs en données, les architectes et les professionnels du cloud cherchant à construire des pipelines de niveau entreprise. Une compréhension de base de SQL et des plateformes cloud comme AWS est recommandée.
Avec sa difficulté intermédiaire, ce cours comble le fossé entre les connaissances de base et les compétences avancées en ingénierie des données.
- Introduction au Cours
Dans ce module, nous poserons les bases de l'ensemble du cours en décrivant la feuille de route, en discutant des prérequis et en partageant des stratégies de réussite. Ces connaissances fondamentales vous assureront d'être bien préparé pour naviguer et exceller dans le matériel à venir.
- Introduction à Snowflake et AWS
Dans ce module, nous explorerons les concepts fondamentaux de l'entreposage de données et son importance dans un écosystème de données. Nous examinerons de plus près l'architecture de Snowflake, la hiérarchie des objets et les entrepôts virtuels. De plus, vous apprendrez à connaître les composants de facturation de Snowflake, le suivi de la consommation et la mise en place de moniteurs de ressources, vous assurant ainsi d'être équipé pour gérer les ressources efficacement.
- Snowflake - Tables
Dans ce module, nous explorerons les différents types de tables disponibles dans Snowflake, fournissant une introduction complète à leurs structures et leurs buts. Vous acquerrez une expérience pratique grâce à des laboratoires axés sur la création de tables, de vues et de vues sécurisées. Nous explorerons également les nuances des vues, y compris les vues matérialisées et sécurisées, pour améliorer votre compréhension des capacités de présentation des données de Snowflake.
- Snowflake - Partitionnement, Clustering et Optimisation des Performances
Dans ce module, nous examinerons les fonctionnalités avancées d'organisation des données de Snowflake, en nous concentrant sur les micropartitions et les clés de clustering. Grâce à des laboratoires pratiques, vous apprendrez à sélectionner et configurer des clés de clustering, analyser des profils de requête, et tirer parti des mécanismes de mise en cache pour améliorer les performances. En outre, nous explorerons les avantages de l'optimisation des recherches pour améliorer encore l'efficacité de la récupération et du traitement des données.
- Snowflake - Chargement/Ingération et Extraction des Données
Dans ce module, nous explorerons les processus de bout en bout pour charger et extraire des données dans Snowflake. Vous apprendrez comment connecter Snowflake avec AWS S3, ingérer des données structurées et semi-structurées et implémenter une ingestion continue avec Snowpipe. De plus, nous aborderons des aspects critiques tels que l'estimation des coûts et les considérations clés pour assurer des opérations de données efficaces. Des laboratoires pratiques solidifieront votre compréhension de ces concepts.
- Snowflake - Tâches et Planification des Requêtes
Dans ce module, nous approfondirons les fonctionnalités de gestion des tâches et de planification des requêtes de Snowflake. Vous apprendrez comment créer et gérer des tâches, construire des arbres de tâches complexes pour des flux de travail dépendants, et surveiller leur exécution. Nous explorerons également les connaissances en matière de facturation et l'historique des requêtes pour assurer des opérations efficaces et rentables. Grâce à des laboratoires pratiques, vous acquerrez des compétences pratiques pour implémenter et optimiser des tâches dans Snowflake.
- Snowflake - Flux et Capture des Données Modifiées
Dans ce module, nous découvrirons la puissance des flux dans Snowflake pour implémenter des flux de travail de Capture des Données Modifiées (CDC). Vous apprendrez à utiliser des flux standard et en append-only, à gérer la rétention des données et à gérer la désuétude des flux. Grâce à une série de laboratoires et un projet, vous créerez et mettrez en œuvre des pipelines de bout en bout qui tirent parti des flux pour suivre et traiter les modifications de données efficacement. Cette expérience pratique solidifiera votre compréhension de la CDC dans les architectures de données modernes.
- Snowflake - Fonctions Définies par l'Utilisateur
Dans ce module, nous explorerons les Fonctions Définies par l'Utilisateur (UDF) dans Snowflake, une fonctionnalité puissante pour étendre la fonctionnalité de la base de données. Vous apprendrez à connaître les différents types de UDF, y compris les UDF scalaires, tabulaires et basés sur JavaScript, et acquerrez une expérience pratique dans leur mise en œuvre. De plus, nous discuterons du pushdown dans les UDF et de son impact, ainsi que des meilleures pratiques pour écrire des UDF sécurisées afin d'assurer la confidentialité et la conformité des données.
- Snowflake - Fonctions Externes
Dans ce module, nous explorerons les capacités des fonctions externes dans Snowflake pour interagir avec des systèmes externes. Vous apprendrez comment déployer des fonctions AWS Lambda, créer et sécuriser une API Gateway, et intégrer ces composants avec Snowflake pour construire des fonctions externes. Grâce à des laboratoires pratiques, vous acquerrez des compétences pratiques en configurant et déployant ces intégrations puissantes pour étendre la fonctionnalité de Snowflake.
- Snowflake avec Python, Spark et Airflow sur AWS
Dans ce module, nous explorerons comment intégrer Snowflake avec Python, Spark, et Airflow sur AWS pour construire des solutions d'ingénierie des données robustes. Vous apprendrez comment connecter Snowflake avec Python localement et sur AWS Glue, paramétrer des scripts et utiliser Pandas pour la manipulation des données. De plus, nous examinerons les emplois PySpark, l'optimisation du pushdown dans Spark 3.1, et la mise en place d'Airflow pour l'orchestration des tâches.
- Streaming en Temps Réel avec Kafka et Snowflake
Dans ce module, nous nous concentrerons sur le streaming en temps réel utilisant Kafka et Snowflake. Vous apprendrez à configurer Kafka sur votre système local, à configurer le connecteur Kafka-Snowflake, et à activer la connectivité sécurisée avec des clés de cryptage. Grâce à des laboratoires pratiques, vous mettrez en œuvre des pipelines de streaming pour ingérer des données en temps réel dans Snowflake, solidifiant votre compréhension de l'intégration des plateformes de streaming modernes avec Snowflake.
- Snowflake - Protection et Gouvernance des Données
Dans ce module, nous explorerons les caractéristiques clés de Snowflake qui assurent une protection et une gouvernance robustes des données. Vous apprendrez à connaître les mécanismes de Time Travel et Failsafe pour la récupération des données, et à implémenter le masquage dynamique des données au niveau des colonnes pour protéger les informations sensibles. De plus, nous couvrirons la sécurité au niveau des lignes et vous guiderons à travers des laboratoires pratiques pour créer et appliquer des politiques d'accès, garantissant un accès contrôlé et conforme aux données.
- Snowpark - Pour les Pipelines de Données et la Science des Données
Dans ce module, nous plongerons dans Snowpark, le cadre puissant de Snowflake pour construire des pipelines de données avancés et soutenir les cas d'utilisation de la science des données. Vous acquerrez une expérience pratique avec le déploiement de fonctions UDF de Python, la création de procédures stockées pour les tâches ETL, et la préparation des données pour l'apprentissage machine. De plus, vous construirez et déploierez des pipelines de formation de modèle et de prédiction utilisant Scikit-Learn, tous propulsés par Snowpark.
- Conclusion et Plus d'Apprentissage
Dans ce module, nous conclurons le cours en réfléchissant aux sujets clés et aux compétences couvertes. Vous recevrez des conseils pour les prochaines étapes, y compris des mises à jour sur les fonctionnalités évolutives de Snowflake et des opportunités d'apprentissage supplémentaires. Cette section finale vous aidera à tracer un chemin pour une croissance continue et une maîtrise de Snowflake et de son écosystème.