Qué necesitas saber antes de
comenzar

Inicio 4 June 2026 01:12

Fin 4 June 2026

00 Días
00 Horas
00 Minutos
00 Segundos
course image

Almacenamiento e Integración de Datos Parte 2

Explore técnicas avanzadas de ingeniería de datos, incluyendo el diseño ETL con BPMN y Talend, pipelines de datos en la nube, patrones de ingestión, procesos de transformación y servicio de datos para análisis y aprendizaje automático.
Northeastern University via Coursera

Northeastern University

26 Cursos


Northeastern es una universidad de investigación de renombre mundial con campus en Boston y alrededor del mundo. Ofrece un modelo de aprendizaje experiencial que anima a los estudiantes a aprender a través de la experiencia del mundo real.

11 hours 28 minutes

Actualización opcional disponible

Intermedio

Avanza a tu propio ritmo

Paid Course

Actualización opcional disponible

Resumen

Covers various topics in Data Engineering in support of decision support systems, data analytics, data mining, machine learning, and artificial intelligence. Studies on-premises data warehouse architecture, dimensional modeling of data warehouses, Extract-Transform-Load (ETL) integration from source systems to data warehouse, On-line Analytical Processing (OLAP) systems, and the evolving world of data quality and data governance.

Offers students an opportunity to design, develop and maintain cloud-based data pipelines. Both on-premises and cloud-based platforms will be used to illustrate and implement Data Engineering techniques using operational and analytical data warehouses.

Programa

  • Diseño ETL 1
  • En este módulo, aprenderás sobre los procesos ETL (Extract, Transform, Load), una parte esencial de las soluciones de Almacenamiento de Datos e Integración de Datos. Los procesos ETL pueden ser complejos y costosos, pero un diseño y modelado efectivos pueden reducir significativamente los costos de desarrollo y mantenimiento. Se te introducirá a los conceptos básicos de la Notación de Modelado de Procesos de Negocio (BPMN), que es crucial para modelar procesos de negocio. Nos enfocaremos en los fundamentos de BPMN, incluyendo componentes clave como objetos de flujo, compuertas, eventos y artefactos, que son esenciales para modelar procesos de negocio. Explorarás cómo BPMN puede ser personalizado para el modelado conceptual de tareas ETL, con un enfoque particular en diferenciar tareas de control de tareas de datos. Las tareas de control gestionan la orquestación de los procesos ETL, mientras que las tareas de datos manejan la manipulación de datos, ambas críticas en la conceptualización de flujos de trabajo ETL. Al final de este módulo, obtendrás un sólido entendimiento de cómo diseñar procesos ETL usando BPMN, permitiendo una mayor flexibilidad y adaptabilidad en diversas herramientas.
  • Diseño ETL 2
  • En este módulo, profundizarás en Talend Studio, una potente plataforma de integración de datos basada en Eclipse que transforma operaciones ETL complejas en flujos de trabajo visuales intuitivos. Al explorar la interfaz de arrastrar y soltar de Talend, aprenderás a navegar por los componentes centrales de la plataforma. Dominarás las operaciones ETL fundamentales al estudiar componentes esenciales como tMap para transformaciones complejas de datos y uniones, tJoin para enlaces de datos sencillos, y varios componentes de entrada/salida para conectarse a bases de datos, archivos y APIs. Al finalizar el módulo, comprenderás cómo Talend genera automáticamente código Java ejecutable a partir de diseños visuales, permitiéndote crear soluciones de integración de datos escalables, listas para producción que pueden manejar tanto el procesamiento por lotes como el de datos en tiempo real a través de diversos entornos tecnológicos.
  • Ingeniería de Datos 1
  • En este módulo, hacemos la transición del Almacenamiento de Datos en instalaciones propias a la Ingeniería de Datos. Si bien la Ingeniería de Datos tiene sus raíces en el Almacenamiento de Datos, abarca mucho más. Exploraremos los habilitadores clave de esta evolución, específicamente la computación en la nube y DevOps. Aprenderás sobre los beneficios del desarrollo en la nube, incluyendo mayor escalabilidad, eficiencia de costos y flexibilidad en las operaciones de datos. También profundizaremos en cómo se redefinen los componentes tradicionales de infraestructura de TI—como la seguridad, la red y los recursos de computación—en entornos de nube usando AWS. Además, obtendrás una comprensión de DevOps en la nube, enfocándote en el uso de máquinas virtuales y contenedores para agilizar la integración y el despliegue continuos. Cubriremos prácticas clave de DevOps como Infraestructura como Código (IaC), canalizaciones CI/CD y pruebas automatizadas, destacando su papel en asegurar la consistencia, ciclos de desarrollo más rápidos y aplicaciones seguras. Luego explorarás qué implica la ingeniería de datos y las habilidades requeridas para convertirte en un ingeniero de datos. Finalmente, introduciremos el concepto del ciclo de vida de la ingeniería de datos y sus diferentes fases, concentrándonos en las dos primeras: Generación y Almacenamiento de Datos.
  • Ingeniería de Datos 2
  • En este módulo, exploraremos las siguientes dos fases del ciclo de vida de la ingeniería de datos: Ingesta y Transformación. La ingesta de datos se refiere al proceso de mover datos desde sistemas fuente hacia almacenamiento, haciéndolos disponibles para procesamiento y análisis. A medida que te adentres en la lectura, examinarás patrones clave de ingesta, incluyendo la ingesta por lotes frente a la continua, métodos síncronos fronte a asincrónicos, y enfoques de empuje, tira y híbridos. También explorarás consideraciones de ingeniería esenciales como escalabilidad, fiabilidad y gestión de calidad de datos, junto con los desafíos que plantean los cambios de esquema. La lectura introducirá diversas tecnologías que habilitan la ingesta de datos, como JDBC/ODBC, Captura de Datos de Cambio (CDC), APIs y plataformas de transmisión de eventos como Kafka. Luego cambiamos el enfoque a la fase de transformación del ciclo de vida, explorando diferentes tipos de transformaciones que integran lógica de negocio compleja en las canalizaciones de datos. Al final del módulo, nos enfocaremos en la arquitectura de datos e implementaremos buenos principios de arquitectura para construir canalizaciones de datos escalables y fiables.
  • Planificación de Canalizaciones
  • En este módulo, exploraremos las características de los datos y cómo impulsan las decisiones de infraestructura. En el mundo actual impulsado por los datos, comprender las propiedades de tus datos es esencial para diseñar canalizaciones de datos robustas. Revisaremos características clave como el volumen, que se refiere al tamaño de los conjuntos de datos, y la velocidad, que se refiere a la frecuencia con la que se generan nuevos datos. También analizaremos la variedad, que se centra en los formatos y fuentes de datos, y la veracidad, que enfatiza la precisión y confiabilidad de los datos. El objetivo final es descubrir el valor de los datos a través de un análisis perspicaz. A medida que profundices en el diseño de canalizaciones, aprenderás cómo estas características influyen en decisiones clave, como la elección de herramientas de almacenamiento, procesamiento y análisis. También cubriremos servicios esenciales de AWS como Amazon S3, Glue y Athena, explorando cómo apoyan una ingeniería de datos escalable y flexible. Al final de este módulo, tendrás una comprensión integral de cómo construir soluciones de datos efectivas para satisfacer tanto necesidades técnicas como comerciales.
  • Servicio de Datos
  • Bienvenido a la etapa final del ciclo de vida de la ingeniería de datos: servir datos. En este módulo, nos enfocaremos en cómo servir datos de manera efectiva para análisis, aprendizaje automático (ML) y ETL inverso para garantizar que los productos de datos que diseñes sean confiables, procesables y confiados por las partes interesadas. Los temas clave incluyen establecer SLAs, identificar casos de uso, evolucionar productos de datos con retroalimentación, estandarizar definiciones de datos y explorar métodos de entrega como intercambios de archivos, bases de datos y sistemas de transmisión. También cubriremos el uso de ETL inverso para mejorar los procesos comerciales y discutiremos la importancia del contexto para elegir el mejor tipo de visualización y herramientas. Luego profundizaremos en los KPI y métricas y cómo clasificarlos, incluyendo cómo identificar KPI robustos basados en el contexto comercial. Finalmente, nos centraremos en crear tableros intuitivos eligiendo el análisis, visualizaciones y métricas correctas para mostrar según el contexto comercial y la audiencia involucrada. Al final de este módulo, entenderás cómo diseñar y servir soluciones de datos que impulsen acciones significativas y sean confiadas por los usuarios finales.

Impartido por

Venkat Krishnamurthy


Materias

Data Science