Data Engineering on AWS - A Streaming Data Pipeline Solution (Includes Labs)

via AWS Skill Builder

AWS Skill Builder

411 Cursos


course image

Resumen

En este curso, aprenderá a construir una solución de análisis de datos en streaming utilizando servicios de AWS, incluyendo Amazon Kinesis, Amazon Data Firehose y Amazon Managed Streaming para Apache Kafka (Amazon MSK). Kinesis es un servicio de transmisión de datos en tiempo real masivamente escalable y duradero. Amazon MSK ofrece un servicio Apache Kafka seguro, totalmente gestionado y altamente disponible.

Aprenderá cómo Kinesis y Amazon MSK se integran con los servicios de AWS como AWS Glue y AWS Lambda. El curso aborda la ingesta de datos en streaming, el almacenamiento de transmisiones y los componentes de procesamiento de transmisiones del pipeline de análisis de datos. También aprenderá a aplicar prácticas recomendadas de seguridad, rendimiento y gestión de costos en la operación de Kinesis y Amazon MSK.

El curso está dividido en diferentes módulos. Los módulos de aprendizaje introducen nuevos conceptos y los servicios de AWS que puede utilizar para construir su solución. Los módulos de laboratorio son actividades prácticas y detalladas con instrucciones paso a paso para que pueda aplicar lo que ha aprendido.

Actividades

Contenido interactivo, videos, verificaciones de conocimiento, evaluaciones y laboratorios prácticos

Objetivos del Curso

  • Reconocer un desafío del cliente de análisis y describir la solución AWS apropiada para resolverlo con una arquitectura de datos en streaming.
  • Describir fuentes de datos adecuadas para aplicaciones en streaming y cómo se ingieren esos datos.
  • Identificar servicios de almacenamiento a corto y largo plazo para datos en streaming.
  • Describir cómo diseñar e implementar soluciones de procesamiento de datos en tiempo real.
  • Reconocer cómo servir datos en streaming para consumo de usuarios finales.
  • Describir cómo optimizar un pipeline de datos en streaming usando Amazon Kinesis, Amazon MSK y Amazon Redshift.
  • Identificar mejores prácticas para asegurar un pipeline de datos en streaming.

Audiencia Destinada

  • Ingeniero de datos
  • Analista de datos
  • Arquitecto de datos
  • Ingeniero de inteligencia de negocios

Habilidades Recomendadas

  • 2-3 años de experiencia en ingeniería de datos
  • 1–2 años de experiencia práctica con servicios de AWS
  • Haber completado AWS Cloud Practitioner Essentials o equivalente
  • Haber completado Fundamentos de Análisis en AWS Parte 1 y 2
  • Haber completado Ingeniería de Datos en AWS – Fundamentos

Esquema del Curso

Módulo 1: Construyendo una Solución de Pipeline de Datos en Streaming (75 min)

Este curso muestra cómo identificar, seleccionar y configurar los servicios AWS apropiados para construir una solución de pipeline de datos en streaming que cumpla con los objetivos comerciales de un cliente ficticio.

  • Introducción
  • Ingesta de Datos de Fuentes de Transmisión
  • Almacenamiento de Datos en Streaming
  • Procesamiento de Datos
  • Análisis de Datos
  • Evaluación Final
  • Conclusión

Módulo 2: Análisis en Streaming con Amazon Managed Service para Apache Flink (Laboratorio) (45 min)

Este laboratorio es una actividad práctica paso a paso para construir un pipeline de procesamiento de transmisiones mediante la ingestión de datos de clickstream y el enriquecimiento de los datos de clickstream con datos de catálogo almacenados en Amazon Simple Storage Service (Amazon S3). Realizará un análisis en los datos enriquecidos para identificar las ventas por categoría en tiempo real y visualizar la salida.

  • Resumen del laboratorio
  • Tarea 1: Configuración del entorno de notebook Zeppelin
  • T

    Programa de estudio


    Enseñado por


    Etiquetas

    united states

Encontrado en