Qué necesitas saber antes de
comenzar

Inicio 4 June 2026 05:39

Fin 4 June 2026

00 Días
00 Horas
00 Minutos
00 Segundos
course image

Almacenamiento e Integración de Datos Parte 1

Explore los fundamentos del almacenamiento de datos, el modelado dimensional, los procesos ETL y los sistemas OLAP para construir sistemas de soporte a la decisión y plataformas de análisis efectivas.
Northeastern University via Coursera

Northeastern University

26 Cursos


Northeastern es una universidad de investigación de renombre mundial con campus en Boston y alrededor del mundo. Ofrece un modelo de aprendizaje experiencial que anima a los estudiantes a aprender a través de la experiencia del mundo real.

23 hours 6 minutes

Actualización opcional disponible

Intermedio

Avanza a tu propio ritmo

Paid Course

Actualización opcional disponible

Resumen

This course will cover various topics in data engineering in support of decision support systems, data analytics, data mining, machine learning, and artificial intelligence. You will study on-premises data warehouse architecture, dimensional modeling of data warehouses, Extract-Transform-Load (ETL) integration from source systems to data warehouse, On-line Analytical Processing (OLAP) systems, and the evolving world of data quality and data governance.

It offers you an opportunity to design, develop and maintain cloud-based data pipelines. Both on-premises and cloud-based platforms will be used to illustrate and implement data engineering techniques using operational and analytical data warehouses.

Programa

  • Conceptos de Bases de Datos 1
  • Este módulo introduce el almacenamiento de datos y la inteligencia empresarial, enfatizando su papel en la mejora de la toma de decisiones organizacionales. Los almacenes de datos transforman datos en bruto en información procesable usando procesos como ETL (Extracción, Transformación y Carga), respaldados por herramientas como OLAP para consultas y minería de datos. Mientras que las bases de datos operativas (OLTP) son adecuadas para transacciones diarias, las bases de datos OLAP están optimizadas para análisis complejos.
  • Conceptos de Bases de Datos 2
  • Este módulo se basa en los fundamentos del diseño de bases de datos del módulo anterior, centrándose en el modelado de bases de datos relacionales, la normalización y el SQL. Las lecturas te guiarán en la traducción de un diagrama EER conceptual a un modelo relacional, asegurando la adherencia a los principios de normalización y apuntando a la Tercera Forma Normal (3NF). También enfatizaremos la comprensión de claves primarias y claves externas para mantener la integridad de los datos y establecer relaciones entre tablas. Tendrás la oportunidad de crear y criticar modelos relacionales. Luego exploraremos los conceptos básicos de SQL, cubriendo la sintaxis (SELECT, INSERT, UPDATE, DELETE), técnicas de consulta (WHERE, ORDER BY, JOIN) y operaciones que involucran funciones y agregados (COUNT, SUM, AVG, MIN, MAX), fundamentales en la consulta y gestión de bases de datos.
  • Conceptos de Almacén de Datos
  • Este módulo proporciona una introducción a los conceptos de almacenamiento de datos. Los almacenes de datos se basan en un modelo multidimensional. Observaremos de cerca el modelo multidimensional y su representación como cubos de datos (también conocidos como hipercubos). Examinaremos cómo los diferentes aspectos de datos se categorizan en hechos, medidas y dimensiones. Las dimensiones como Producto, Tiempo y Cliente se organizan jerárquicamente dentro de un cubo, permitiendo analizar los datos en varios niveles de detalle. Las medidas como Cantidad y Monto de Ventas se almacenan dentro de estos cubos, y los analistas pueden navegar a través de diferentes niveles de detalle usando técnicas de "agregación" (rolling up) y "detallado" (drilling down). También exploraremos conceptos clave como granularidad, esquema de dimensiones y jerarquías de miembros, esenciales para comprender cómo se estructuran y analizan los datos en modelos multidimensionales. Finalmente, aprenderemos a usar técnicas como disyunción, completitud y corrección para asegurar la precisión e integridad de los datos al agregar información en cubos de datos, conocidas colectivamente como resumibilidad.
  • Diseño Conceptual 1
  • En este módulo exploraremos el modelado conceptual con modelos multidimensionales, visualizados utilizando MultiDim. Este enfoque nos ayuda a organizar los datos en hechos y dimensiones y entender las relaciones entre ellos, lo cual es esencial para diseñar almacenes de datos. Exploraremos temas como las dimensiones (por ejemplo, fecha, cliente) y las medidas (por ejemplo, cantidad, ventas totales) en más detalle. También exploraremos la diferencia entre eventos primarios y eventos secundarios y aprenderemos cómo se usan. Finalmente, veremos otra categorización de Medidas en Flujo: Medidas de Nivel y Unidad.
  • Diseño Conceptual 2
  • En este módulo, profundizaremos en el modelado conceptual de jerarquías dentro de los almacenes de datos, explorando sus definiciones, características y significado. Las jerarquías balanceadas tienen una estructura uniforme donde cada hijo tiene un padre y todas las ramas son de la misma longitud, haciendo que el análisis de datos sea consistente y eficiente. En contraste, las jerarquías no balanceadas tienen longitudes de rama variables y niveles de agregación faltantes, ofreciendo flexibilidad para modelar escenarios del mundo real como categorías de productos y jerarquías geográficas. También se te presentarán jerarquías generalizadas, que implican relaciones "es-un" entre supertipos y subtipos, permitiendo una representación detallada de datos pero requiriendo un manejo cuidadoso de la agregación y la especialización. También exploraremos jerarquías alternativas, mostrando diferentes formas de organizar la misma dimensión, como las vistas de tiempo calendario vs. fiscal. Finalmente, veremos jerarquías paralelas, tanto independientes como dependientes, como herramientas para analizar datos desde múltiples perspectivas, representando estructuras organizacionales complejas. Entender estos tipos de jerarquía es crucial para la gestión y análisis efectivos de datos en el almacenamiento de datos.
  • Modelado Lógico
  • En este módulo, explorarás el modelado lógico en el almacenamiento de datos, que es el proceso de diseñar una representación estructurada y abstracta de los datos a almacenar, centrándose en cómo los datos están organizados, relacionados y optimizados para consultas y análisis eficientes. Basándote en lo que aprendiste en los módulos anteriores, darás el siguiente paso en el diseño de almacenes de datos: traducir un modelo conceptual en un modelo lógico para su implementación. El módulo se centrará en la representación relacional de almacenes de datos, incluyendo el estudio de varias implementaciones de esquemas: estrella, copo de nieve, starflake y constelación. También examinarás las reglas para mapear un modelo conceptual multidimensional a un modelo relacional, destacando el rol e importancia de diferentes tipos de claves en este proceso. También discutiremos estrategias para mantener la consistencia en un almacén de datos. Finalmente, explorarás cómo pre-poblar ciertas dimensiones, como el tiempo, para agilizar operaciones y mejorar el rendimiento de las consultas.
  • Dimensiones de Cambio Lento
  • Diseñar un almacén de datos es un proceso complejo que requiere la transición de modelos conceptuales de alto nivel a modelos lógicos detallados. Esta transición es crítica porque cierra la brecha entre entender las necesidades empresariales y traducirlas en un marco técnico que las soporte efectivamente. En este módulo, ampliarás el proceso de modelado lógico cubierto en el módulo anterior, con un enfoque particular en el diseño de modelos dimensionales y las complejidades del modelado de jerarquías. A medida que te adentres más, te encontrarás con el modelado lógico para conceptos avanzados como dimensiones de muchos-a-muchos, enlaces entre hechos y hechos con múltiples granularidades. También exploraremos el concepto de Dimensiones de Cambio Lento (SCDs), que son esenciales para gestionar datos históricos en tu almacén. Aprenderás cómo implementar diferentes tipos de SCD para rastrear y gestionar con precisión los cambios en los datos de dimensiones a lo largo del tiempo. Finalmente, tocaremos SQL para OLAP, centrandonos en conceptos avanzados como la agregación y las funciones de ventana, y aprenderás a usar SQL para consultar y analizar almacenes de datos.

Impartido por

Venkat Krishnamurthy


Materias

Business