What You Need to Know Before
You Start

Starts 7 June 2025 12:16

Ends 7 June 2025

00 days
00 hours
00 minutes
00 seconds
course image

Comment construire un lac de données cloud native avec des technologies open source

Découvrez comment déployer un lac de données basé sur Kubernetes en utilisant des outils open source, depuis l'installation initiale jusqu'à l'exécution d'une plateforme prototype complète sur votre machine locale.
Canonical Ubuntu via YouTube

Canonical Ubuntu

2544 Cours


30 minutes

Optional upgrade avallable

Not Specified

Progress at your own speed

Free Video

Optional upgrade avallable

Aperçu

Découvrez comment déployer un lac de données basé sur Kubernetes en utilisant des outils open source, depuis l'installation initiale jusqu'à l'exécution d'une plateforme prototype complète sur votre machine locale.

Programme

  • Introduction aux lacs de données natifs cloud
  • Aperçu des architectures natives cloud
    Avantages des lacs de données pour le stockage et l'analyse des données
  • Fondamentaux de Kubernetes
  • Comprendre l'orchestration de conteneurs
    Mise en place d'un cluster Kubernetes local (Minikube, kind ou K3s)
    Opérations de base de Kubernetes : Pods, Services et Déploiements
  • Technologies Open Source pour les lacs de données
  • Apache Hadoop et HDFS
    Apache Spark pour le traitement des données
    Apache Kafka pour l'ingestion de données en temps réel
  • Couche de stockage
  • Mise en place de systèmes de fichiers distribués
    Configuration de solutions de stockage d'objets (par exemple, MinIO, Ceph)
  • Ingestion de données
  • Configuration de pipelines d'ingestion de données avec Kafka
    Exploration d'outils ETL comme Apache NiFi et Apache Airflow
  • Traitement des données
  • Exécution des tâches Spark sur Kubernetes
    Mise en œuvre du traitement par lots et du traitement en flux
  • Accès aux données et requêtes
  • Mise en place de moteurs de requête SQL (par exemple, Presto, Trino)
    Utilisation d'Hive Metastore pour la gestion des schémas
  • Sécurité et gouvernance
  • Mise en œuvre des pratiques de sécurité de base
    Introduction aux outils de gouvernance des données (Apache Atlas)
  • Surveillance et journalisation
  • Configuration des outils de surveillance (Prometheus, Grafana)
    Agrégation et surveillance des journaux avec la pile ELK (Elasticsearch, Logstash, Kibana)
  • Déploiement et tests
  • Construction d'un prototype de lac de données sur une machine locale
    Effectuer des tests et une validation des données
  • Études de cas et projets pratiques
  • Études de cas d'architectures de lacs de données dans le monde réel
    Projet de synthèse : Déployer un lac de données natif cloud en utilisant des outils open source sur Kubernetes
  • Conclusion et tendances futures
  • Tendances émergentes dans les technologies de données natives cloud
    Examiner l'avenir des lacs de données open source

Sujets

Affaires