Ce que vous devez savoir avant
Vous commencez

Débute 15 July 2026 08:27

Se termine 15 July 2026

00 Jours

00 Heures

00 Minutes

00 Secondes

S'inscrire

Entrepôt de données et intégration Partie 1

Explorez les bases de l'entreposage de données, la modélisation dimensionnelle, les processus ETL et les systèmes OLAP pour construire des systèmes de soutien à la décision et des plateformes analytiques efficaces.

Northeastern University via Coursera

23 hours 6 minutes

Amélioration optionnelle disponible

Intermédiaire

Progressez à votre rythme

Paid Course

Amélioration optionnelle disponible

Aperçu

This course will cover various topics in data engineering in support of decision support systems, data analytics, data mining, machine learning, and artificial intelligence. You will study on-premises data warehouse architecture, dimensional modeling of data warehouses, Extract-Transform-Load (ETL) integration from source systems to data warehouse, On-line Analytical Processing (OLAP) systems, and the evolving world of data quality and data governance.

It offers you an opportunity to design, develop and maintain cloud-based data pipelines. Both on-premises and cloud-based platforms will be used to illustrate and implement data engineering techniques using operational and analytical data warehouses.

Programme

Concepts de Bases de Données 1

Ce module introduit l'entreposage de données et l'intelligence d'affaires, en mettant l'accent sur leur rôle dans l'amélioration de la prise de décision organisationnelle. Les entrepôts de données transforment les données brutes en informations exploitables à l'aide de processus tels que l'ETL (Extraction, Transformation et Chargement), soutenus par des outils tels que le OLAP pour les requêtes et la fouille de données. Alors que les bases de données opérationnelles (OLTP) sont adaptées aux transactions quotidiennes, les bases de données OLAP sont optimisées pour des analyses complexes.

Concepts de Bases de Données 2

Ce module s'appuie sur les bases de la conception de bases de données du module précédent, en se concentrant sur la modélisation des bases de données relationnelles, la normalisation et le SQL. Les lectures vous guideront dans la traduction d'un diagramme EER conceptuel en un modèle relationnel, en veillant au respect des principes de normalisation et visant la Troisième Forme Normale (3NF). Nous mettrons également l'accent sur la compréhension des clés primaires et étrangères pour maintenir l'intégrité des données et établir des relations entre les tables. Vous aurez également l'occasion de créer et de critiquer des modèles relationnels. Nous explorerons ensuite les bases du SQL, couvrant la syntaxe (SELECT, INSERT, UPDATE, DELETE), les techniques de requête (WHERE, ORDER BY, JOIN) et les opérations impliquant des fonctions et des agrégats (COUNT, SUM, AVG, MIN, MAX), qui sont fondamentaux pour l'interrogation et la gestion des bases de données.

Concepts d'Entrepôt de Données

Ce module offre une introduction aux concepts d'entrepôt de données. Les entrepôts de données sont basés sur un modèle multidimensionnel. Nous examinerons de près le modèle multidimensionnel et sa représentation sous forme de cubes de données (également appelés hypercubes). Nous examinerons comment différents aspects des données sont catégorisés en faits, mesures et dimensions. Des dimensions telles que Produit, Temps et Client sont organisées de manière hiérarchique au sein d'un cube, permettant aux données d'être analysées à différents niveaux de détail. Des mesures telles que Quantité et Montant des Ventes sont stockées dans ces cubes, et les analystes peuvent naviguer à travers différents niveaux de détail en utilisant des techniques de "regroupement" et de "forage". Nous explorerons également des concepts clés tels que la granularité, le schéma de dimension et les hiérarchies de membres, qui sont essentiels pour comprendre comment les données sont structurées et analysées dans les modèles multidimensionnels. Enfin, nous apprendrons à utiliser des techniques telles que la disjonction, la complétude et la précision pour garantir l'exactitude et l'intégrité des données lors de l'agrégation des informations dans les cubes de données, collectivement connues sous le nom de résumabilité.

Conception Conceptuelle 1

Dans ce module, nous explorerons la modélisation conceptuelle avec des modèles multidimensionnels, visualisés à l'aide de MultiDim. Cette approche nous aide à organiser les données en faits et dimensions et à comprendre les relations qui les existent, ce qui est essentiel pour concevoir des entrepôts de données. Nous explorerons des sujets tels que les dimensions (par exemple, date, client) et les mesures (par exemple, quantité, ventes totales) en détail. Nous explorerons également la différence entre les événements primaires et secondaires et apprendrons comment ils sont utilisés. Enfin, nous examinerons une autre catégorisation des Mesures en Fonctions : Mesures de Niveau et de Unité.

Conception Conceptuelle 2

Dans ce module, nous plongerons dans la modélisation conceptuelle des hiérarchies au sein des entrepôts de données, en explorant leurs définitions, caractéristiques et signification. Les hiérarchies équilibrées ont une structure uniforme où chaque enfant a un parent et toutes les branches ont la même longueur, rendant l'analyse des données cohérente et efficace. En revanche, les hiérarchies non équilibrées ont des longueurs de branches variées et des niveaux d'agrégation manquants, offrant la flexibilité de modéliser des scénarios réels comme les catégories de produits et les hiérarchies géographiques. Vous serez également introduit aux hiérarchies généralisées, qui impliquent des relations "est-un" entre supertypes et sous-types, permettant une représentation détaillée des données mais nécessitant une gestion minutieuse de l'agrégation et de la spécialisation. Nous explorerons également des hiérarchies alternatives, présentant différentes façons d'organiser une même dimension, comme les vues calendaires vs fiscales du temps. Enfin, nous examinerons les hiérarchies parallèles, à la fois indépendantes et dépendantes, en tant qu'outils pour analyser les données sous plusieurs perspectives, représentant des structures organisationnelles complexes. Comprendre ces types de hiérarchies est crucial pour une gestion et une analyse efficaces des données dans l'entreposage de données.

Modélisation Logique

Dans ce module, vous explorerez la modélisation logique dans l'entreposage de données, qui est le processus de conception d'une représentation structurée et abstraite des données à stocker, en se concentrant sur la façon dont les données sont organisées, liées et optimisées pour des requêtes et analyses efficaces. En vous appuyant sur ce que vous avez appris dans les modules précédents, vous passerez à l'étape suivante de la conception de l'entrepôt de données : traduire un modèle conceptuel en un modèle logique pour sa mise en œuvre. Le module se concentrera sur la représentation relationnelle des entrepôts de données, y compris l'étude de diverses implémentations de schéma : étoile, flocon de neige, "starflake", et constellation. Vous examinerez également les règles pour mapper un modèle conceptuel multidimensionnel à un modèle relationnel, soulignant le rôle et l'importance des différents types de clés dans ce processus. Nous discuterons également des stratégies pour maintenir la cohérence dans un entrepôt de données. Enfin, vous explorerez comment pré-remplir certaines dimensions, comme le temps, pour améliorer les opérations et la performance des requêtes.

Dimensions Changantes Lentement

Concevoir un entrepôt de données est un processus complexe qui nécessite une transition des modèles conceptuels de haut niveau vers des modèles logiques détaillés. Cette transition est critique car elle comble le fossé entre la compréhension des besoins métier et leur traduction en un cadre technique qui soutient efficacement ces besoins. Dans ce module, vous approfondirez le processus de modélisation logique abordé dans le module précédent, en mettant particulièrement l'accent sur la conception du modèle dimensionnel et les complexités de la modélisation hiérarchique. En approfondissant, vous rencontrerez la modélisation logique pour des concepts avancés tels que les dimensions many-to-many, les liens entre faits, et les faits avec des granularités multiples. Nous explorerons également le concept des Dimensions Changantes Lentement (SCDs), qui sont essentielles pour gérer les données historiques dans votre entrepôt. Vous apprendrez comment mettre en œuvre différents types de SCD pour suivre et gérer avec précision les changements dans les données de dimension au fil du temps. Enfin, nous aborderons le SQL pour OLAP, en se concentrant sur des concepts avancés comme l'agrégation et les fonctions de fenêtre, et vous apprendrez à utiliser SQL pour interroger et analyser des entrepôts de données.

Enseigné par

Venkat Krishnamurthy

Matières

Business

Ce que vous devez savoir avant Vous commencez

Entrepôt de données et intégration Partie 1

23 hours 6 minutes

Intermédiaire

Paid Course

Aperçu

Programme

Enseigné par

Matières

IA pour l'automatisation et la modélisation de la FP&A (planification financière et analyse)

FP&A avec IA : Projet de Fin d'Études

IA générative pour le TALN avec PyTorch

Ingénieur en apprentissage automatique : Modèles d'apprentissage automatique et profond

Préparation des données et apprentissage automatique appliqué

Fondations de l'apprentissage par renforcement

Ce que vous devez savoir avant
Vous commencez