Desbloquea el poder de Snowflake y AWS para construir pipelines de datos robustos y escalables que se integren perfectamente con tu ecosistema de datos. Este curso te equipa con las herramientas para diseñar, optimizar y mantener pipelines de datos eficientes, permitiéndote dominar las prácticas modernas de ingeniería de datos.
Comienza por entender la arquitectura de Snowflake, los almacenes virtuales y los componentes de facturación, para luego profundizar en la creación y gestión de tablas, vistas y particiones. Explora conceptos avanzados como el agrupamiento, la optimización del rendimiento y el almacenamiento en caché de consultas, mientras adquieres experiencia práctica a través de laboratorios prácticos.
Con estas bases, avanzarás hacia la ingesta de datos, flujos de extracción y pipelines de datos continuos utilizando Snowflake y AWS S3. Amplía tu experiencia con temas avanzados como funciones definidas por el usuario, funciones externas y la integración de Snowflake con Python, Spark y Airflow.
Aprende a manejar la transmisión de datos en tiempo real con Kafka y Snowflake, implementar funciones de gobernanza como la seguridad a nivel de fila y desplegar Snowpark para pipelines de aprendizaje automático. El curso culmina en proyectos del mundo real que refuerzan tu conocimiento a través de la práctica.
Este curso es ideal para ingenieros de datos, arquitectos y profesionales de la nube que buscan construir pipelines de nivel empresarial. Se recomienda un conocimiento básico de SQL y plataformas en la nube como AWS.
Con su dificultad intermedia, este curso cierra la brecha entre el conocimiento fundamental y las habilidades avanzadas de ingeniería de datos.
- Introducción al Curso
En este módulo, estableceremos la base para todo el curso delineando la hoja de ruta, discutiendo los requisitos previos y compartiendo estrategias de éxito. Estas ideas fundamentales garantizarán que esté bien preparado para navegar y sobresalir en el material próximo.
- Introducción a Snowflake y AWS
En este módulo, exploraremos los conceptos básicos de los almacenes de datos y su importancia dentro de un ecosistema de datos. Echaremos un vistazo más de cerca a la arquitectura de Snowflake, su jerarquía de objetos y sus almacenes virtuales. Además, aprenderás sobre los componentes de facturación de Snowflake, seguimiento del consumo y configuración de monitores de recursos, asegurando que estés equipado para gestionar los recursos de manera efectiva.
- Snowflake - Tablas
En este módulo, profundizaremos en los diversos tipos de tablas disponibles en Snowflake, proporcionando una introducción completa a sus estructuras y propósitos. Obtendrás experiencia práctica a través de laboratorios enfocados en crear tablas, vistas y vistas seguras. También exploraremos las sutilezas de las vistas, incluidas las vistas materializadas y seguras, para mejorar tu comprensión de las capacidades de presentación de datos de Snowflake.
- Snowflake - Particionamiento, Clustering y Optimización del Rendimiento
En este módulo, examinaremos las características avanzadas de organización de datos de Snowflake, enfocándonos en micro-particiones y claves de clustering. A través de laboratorios prácticos, aprenderás a seleccionar y configurar claves de clustering, analizar perfiles de consultas y aprovechar mecanismos de caché para mejorar el rendimiento. Además, exploraremos los beneficios de la optimización de búsqueda para agilizar aún más la eficiencia en la recuperación y procesamiento de datos.
- Snowflake - Carga/Ingesta y Extracción de Datos
En este módulo, exploraremos los procesos de carga y extracción de datos de principio a fin en Snowflake. Aprenderás cómo conectar Snowflake con AWS S3, ingerir datos estructurados y semiestructurados, e implementar la ingesta continua usando Snowpipe. Además, cubriremos aspectos críticos como la estimación de facturación y consideraciones clave para garantizar operaciones de datos eficientes. Laboratorios prácticos solidificarán tu comprensión de estos conceptos.
- Snowflake - Tareas y Programación de Consultas
En este módulo, profundizaremos en las características de gestión de tareas y programación de consultas de Snowflake. Aprenderás a crear y gestionar tareas, construir árboles de tareas complejas para flujos de trabajo dependientes y monitorear su ejecución. También exploraremos perspectivas de facturación e historial de consultas para garantizar operaciones eficientes y rentables. A través de laboratorios prácticos, adquirirás habilidades prácticas en la implementación y optimización de tareas en Snowflake.
- Snowflake - Flujos y Captura de Datos de Cambios
En este módulo, desvelaremos el poder de los flujos en Snowflake para implementar flujos de trabajo de Captura de Datos de Cambios (CDC). Aprenderás a usar flujos estándar y solo de anexión, gestionar la retención de datos y manejar la obsolescencia de flujos. A través de una serie de laboratorios y un proyecto, crearás e implementarás pipelines de extremo a extremo que aprovechen los flujos para rastrear y procesar cambios de datos de manera eficiente. Esta experiencia práctica solidificará tu comprensión de CDC en arquitecturas de datos modernas.
- Snowflake - Funciones Definidas por el Usuario
En este módulo, exploraremos las Funciones Definidas por el Usuario (UDFs) en Snowflake, una característica poderosa para extender la funcionalidad de la base de datos. Aprenderás sobre diferentes tipos de UDFs, incluyendo UDFs escalares, tabulares y basados en JavaScript, y obtendrás experiencia práctica implementándolas. Además, discutiremos la transferencia en UDFs y su impacto, así como las mejores prácticas para escribir UDFs seguras para asegurar la privacidad y cumplimiento de datos.
- Snowflake - Funciones Externas
En este módulo, exploraremos las capacidades de funciones externas en Snowflake para interactuar con sistemas externos. Aprenderás cómo implementar funciones de AWS Lambda, crear y asegurar API Gateway, e integrar estos componentes con Snowflake para construir funciones externas. A través de laboratorios prácticos, adquirirás habilidades prácticas en configurar e implementar estas poderosas integraciones para extender la funcionalidad de Snowflake.
- Snowflake con Python, Spark y Airflow en AWS
En este módulo, exploraremos cómo integrar Snowflake con Python, Spark y Airflow en AWS para construir soluciones de ingeniería de datos robustas. Aprenderás a conectar Snowflake con Python localmente y en AWS Glue, parametrizar scripts y usar Pandas para manipulación de datos. Además, profundizaremos en trabajos de PySpark, la optimización por transferencia en Spark 3.1, y configurar Airflow para la orquestación de tareas. Los laboratorios prácticos proporcionarán experiencia práctica en la implementación y automatización de flujos de trabajo a través de estas herramientas.
- Transmisión en Tiempo Real con Kafka y Snowflake
En este módulo, nos centraremos en la transmisión en tiempo real usando Kafka y Snowflake. Aprenderás a configurar Kafka en tu sistema local, configurar el conector Kafka-Snowflake y habilitar la conectividad segura con claves de cifrado. A través de laboratorios prácticos, implementarás pipelines de transmisión para ingerir datos en tiempo real en Snowflake, solidificando tu comprensión de la integración de plataformas de transmisión modernas con Snowflake.
- Snowflake - Protección y Gobernanza de Datos
En este módulo, exploraremos características clave de Snowflake que aseguran una robusta protección y gobernanza de datos. Aprenderás sobre mecanismos de Viaje en el Tiempo y Failsafe para la recuperación de datos, e implementar enmascaramiento dinámico de datos a nivel de columna para salvaguardar información sensible. Además, cubriremos la seguridad a nivel de fila y te guiaremos a través de laboratorios prácticos para crear y aplicar políticas de acceso, asegurando un acceso a datos controlado y conforme.
- Snowpark - Para Pipelines de Datos y Ciencia de Datos
En este módulo, profundizaremos en Snowpark, el poderoso marco de Snowflake para construir avanzados pipelines de datos y apoyar casos de uso de ciencia de datos. Obtendrás experiencia práctica con la implementación de UDFs en Python, la creación de procedimientos almacenados para tareas de ETL y la preparación de datos para aprendizaje automático. Además, construirás e implementarás pipelines de entrenamiento y predicción de modelos usando Scikit-Learn, todo impulsado por Snowpark. También se proporcionarán recursos de aprendizaje adicionales y un código de cupón para una exploración ampliada.
- Conclusión y Más Aprendizaje
En este módulo, concluiremos el curso reflexionando sobre los temas clave y habilidades cubiertas. Recibirás orientación sobre los próximos pasos, incluidas las actualizaciones sobre las características en evolución de Snowflake y oportunidades adicionales de aprendizaje. Esta sección final te ayudará a trazar un camino para el crecimiento continuo y el dominio de Snowflake y su ecosistema.