Covers various topics in Data Engineering in support of decision support systems, data analytics, data mining, machine learning, and artificial intelligence. Studies on-premises data warehouse architecture, dimensional modeling of data warehouses, Extract-Transform-Load (ETL) integration from source systems to data warehouse, On-line Analytical Processing (OLAP) systems, and the evolving world of data quality and data governance.
Offers students an opportunity to design, develop and maintain cloud-based data pipelines. Both on-premises and cloud-based platforms will be used to illustrate and implement Data Engineering techniques using operational and analytical data warehouses.
- Conception ETL 1
Dans ce module, vous apprendrez les processus ETL (Extraire, Transformer, Charger), une partie essentielle des solutions d'entreposage et d'intégration de données. Les processus ETL peuvent être complexes et coûteux, mais une conception et une modélisation efficaces peuvent réduire considérablement les coûts de développement et de maintenance. Vous serez initié aux bases de la Notation de Modélisation des Processus Métiers (BPMN), qui est cruciale pour la modélisation des processus métier. Nous nous concentrerons sur les bases de BPMN, y compris les composants clés tels que les objets de flux, les passerelles, les événements et les artefacts, qui sont essentiels pour modéliser les processus métier. Vous explorerez comment BPMN peut être personnalisé pour la modélisation conceptuelle des tâches ETL, avec un accent particulier sur la différenciation des tâches de contrôle des tâches de données. Les tâches de contrôle gèrent l'orchestration des processus ETL, tandis que les tâches de données gèrent la manipulation des données, toutes deux étant critiques dans la conceptualisation des flux de travail ETL. À la fin de ce module, vous comprendrez comment concevoir des processus ETL en utilisant BPMN, permettant une plus grande flexibilité et adaptabilité à travers divers outils.
- Conception ETL 2
Dans ce module, vous plongerez dans Talend Studio, une plateforme puissante d'intégration de données basée sur Eclipse qui transforme les opérations ETL complexes en flux de travail visuels intuitifs. En explorant l'interface glisser-déposer de Talend, vous apprendrez à naviguer dans les composants de base de la plateforme. Vous maîtriserez les opérations ETL fondamentales en étudiant des composants essentiels tels que tMap pour les transformations de données complexes et les jointures, tJoin pour le lien de données direct, et divers composants d'entrée/sortie pour la connexion aux bases de données, fichiers et APIs. À la fin du module, vous comprendrez comment Talend génère automatiquement du code Java exécutable à partir de conceptions visuelles, vous permettant de créer des solutions d'intégration de données évolutives, prêtes pour la production, capables de gérer à la fois le traitement par lots et les scénarios de données en temps réel dans des environnements technologiques divers.
- Ingénierie des données 1
Dans ce module, nous passons de l'entreposage de données sur site à l'ingénierie des données. Bien que l'ingénierie des données prenne ses racines dans l'entreposage des données, elle englobe bien plus. Nous explorerons les principaux moteurs de cette évolution, spécifiquement l'informatique en nuage et les DevOps. Vous apprendrez les avantages du développement en nuage, y compris l'évolutivité améliorée, l'efficacité des coûts et la flexibilité dans les opérations de données. Nous plongerons également dans la manière dont les composants traditionnels de l'infrastructure informatique — tels que la sécurité, le réseau, et les ressources de calcul — sont redéfinis dans les environnements en nuage utilisant AWS. De plus, vous acquerrez une compréhension des DevOps en nuage, en vous concentrant sur l'utilisation de machines virtuelles et de conteneurs pour rationaliser l'intégration continue et le déploiement. Nous aborderons les pratiques clés des DevOps comme l'Infrastructure as Code (IaC), les pipelines CI/CD, et les tests automatisés, en soulignant leur rôle pour assurer la cohérence, des cycles de développement plus rapides et des applications sécurisées. Vous explorerez ensuite en quoi consiste l'ingénierie des données et les compétences requises pour devenir ingénieur en données. Enfin, nous introduirons le concept du cycle de vie de l'ingénierie des données et ses différentes phases, en nous concentrant sur les deux premières : la génération et le stockage des données.
- Ingénierie des données 2
Dans ce module, nous explorerons les deux phases suivantes du cycle de vie de l'ingénierie des données : Ingestion et Transformation. L'ingestion des données fait référence au processus de transfert des données des systèmes sources vers le stockage, les rendant disponibles pour le traitement et l'analyse. En approfondissant votre lecture, vous examinerez les principaux schémas d'ingestion, spécifiquement l'ingestion par lots versus en continu, méthodes synchrones versus asynchrones, et les approches push, pull et hybrides. Vous explorerez également des considérations essentielles en ingénierie telles que l'évolutivité, la fiabilité et la gestion de la qualité des données, ainsi que les défis posés par les changements de schéma. La lecture introduira diverses technologies qui permettent l'ingestion de données, telles que JDBC/ODBC, la Capture de Données de Changement (CDC), les APIs, et les plateformes de streaming événementiel comme Kafka. Nous déplacerons ensuite l'attention vers la phase de transformation du cycle de vie, en explorant différents types de transformations qui intègrent des logiques commerciales complexes dans les pipelines de données. À la fin du module, nous nous concentrerons sur l'architecture des données et la mise en œuvre de bons principes architecturaux pour construire des pipelines de données évolutifs et fiables.
- Planification de Pipeline
Dans ce module, nous explorerons les caractéristiques des données et comment elles influencent les décisions d'infrastructure. Dans le monde d'aujourd'hui axé sur les données, comprendre les propriétés de vos données est essentiel pour concevoir des pipelines de données robustes. Nous passerons en revue les caractéristiques clés telles que le volume, qui se réfère à la taille des ensembles de données, et la vélocité, qui concerne la fréquence à laquelle de nouvelles données sont générées. Nous examinerons également la variété, qui se concentre sur les formats et sources de données, et la véracité, qui souligne la précision et la fiabilité des données. L'objectif ultime est de dégager de la valeur des données grâce à une analyse perspicace. En examinant la conception des pipelines, vous apprendrez comment ces caractéristiques influencent les décisions clés, telles que le choix des outils de stockage, de traitement, et d'analyse. Nous couvrirons également les services essentiels d'AWS comme Amazon S3, Glue, et Athena, en explorant comment ils soutiennent l'ingénierie des données évolutive et flexible. À la fin de ce module, vous aurez une compréhension approfondie de la manière de construire des solutions de données efficaces pour répondre aux besoins techniques et commerciaux.
- Servir les Données
Bienvenue à la dernière étape du cycle de vie de l'ingénierie des données : servir les données. Dans ce module, nous nous concentrerons sur la manière de servir efficacement les données pour les analyses, l'apprentissage automatique (ML), et le reverse ETL afin d'assurer que les produits de données que vous concevez sont fiables, exploitables, et dignes de confiance pour les parties prenantes. Les sujets clés incluent la définition de SLA, l'identification des cas d'utilisation, l'évolution des produits de données avec les retours d'expérience, la standardisation des définitions de données, et l'exploration des méthodes de distribution telles que les échanges de fichiers, les bases de données, et les systèmes de streaming. Nous couvrirons aussi l'utilisation du reverse ETL pour améliorer les processus métier et discuterons de l'importance du contexte pour choisir le meilleur type de visualisation et d'outils. Nous plongerons ensuite dans les KPI et les métriques et comment les classer, y compris comment identifier des KPI robustes basés sur le contexte commercial. Finalement, nous nous concentrerons sur la création de tableaux de bord intuitifs en choisissant les bonnes analyses, visualisations, et métriques à mettre en évidence selon le contexte commercial et le public impliqué. À la fin de ce module, vous comprendrez comment concevoir et servir des solutions de données qui incitent à une action significative et sont dignes de confiance par les utilisateurs finaux.