Building ETL and Data Pipelines with Bash, Airflow and Kafka

via edX

edX

300 Cours


course image

Aperçu

Rejoignez notre cours complet sur la construction de pipelines de données et de processus ETL avec Bash, Airflow et Kafka, proposé par edX. Ce cours est conçu pour vous doter des connaissances essentielles et des compétences pratiques en ingénierie des données et entreposage de données, en mettant l'accent sur des pipelines de données et des processus ETL bien conçus et automatisés, qui sont cruciaux pour une plateforme d'Intelligence d'Affaires prospère.

Découvrez comment définir des flux de données, des pipelines et des processus efficaces dès le début. Apprenez à garantir que les bonnes données brutes sont collectées, transformées et chargées dans les couches de stockage souhaitées, les rendant ainsi immédiatement disponibles pour l'analyse. Cette compétence est primordiale pour la conception de plateforme en phase initiale, assurant une manipulation robuste des données et une stratégie d'intelligence d'affaires.

À la fin de ce cours, vous aurez une compréhension ferme des processus Extract, Transform, Load (ETL) et Extract, Load, and Transform (ELT). Vous gagnerez une expérience pratique dans l'extraction, la transformation et le chargement de données dans une zone de staging. Améliorez vos compétences en créant un pipeline de données ETL avec le script shell Bash, en construisant un flux de travail ETL batch utilisant Apache Airflow, et en développant un pipeline de données en streaming avec Apache Kafka.

À travers des laboratoires pratiques et un projet inspiré du monde réel, vous construirez divers pipelines de données en utilisant ces technologies, augmentant considérablement votre portfolio et démontrant votre capacité en tant qu'Ingénieur des données. Ce cours est recommandé pour ceux ayant une expérience préalable dans le travail avec des ensembles de données, SQL, les bases de données relationnelles et les scripts shell Bash.

Classé dans les cours sur les Big Data, les cours Apache Airflow et les cours Apache Kafka, ce parcours éducatif vise à former des ingénieurs de données compétents et des spécialistes de l'entreposage de données prêts à gérer des environnements de données complexes.

Programme


Enseigné par

Rav Ahuja, Yan Luo and Jeff Grossman


Étiquettes

united states

provider edX

edX

300 Cours


edX

pricing Free Online Course (Audit)
language English
duration 5 weeks, 2-4 hours a week
sessions On-Demand
level Beginner