What You Need to Know Before
You Start

Starts 7 June 2025 13:45

Ends 7 June 2025

00 days
00 hours
00 minutes
00 seconds
course image

Introduction à l'ingénierie des données utilisant l'IA générative

Guide Pratique pour Débutants sur GenAI et LLMs pour Transformer, Charger et Modéliser des Données avec Python et SQL
via Udemy

4052 Cours


6 hours 8 minutes

Optional upgrade avallable

Not Specified

Progress at your own speed

Paid Course

Optional upgrade avallable

Aperçu

Guide Pratique pour Débutants sur GenAI et les LLMs pour Transformer, Charger et Modéliser des Données avec Python et SQL Ce que vous apprendrez :

Utiliser de grands modèles de langage pour créer du code Python pour mettre en œuvre des pipelines de donnéesUtiliser les LLMs pour résoudre les défis de chargement de données, de transformation de données et d'évaluation de la qualité des donnéesCréer des bases de données et des modèles de données analytiques en utilisant l'IA générativeCréer des scripts Python, SQL et Bash pour réaliser des tâches courantes d'ingénierie de données Description mise à jour le 3/12/2024Les outils d'IA générative tels que ChatGPT, Claude et Bard rendent l'ingénierie des données plus accessible et plus efficace. Si vous travaillez avec des feuilles de calcul ou des outils de business intelligence mais que vous n'êtes pas très familier avec Python ou SQL, alors l'IA générative peut vous aider à analyser des données et à construire vos propres pipelines de données et processus ETL/ELT.Les IA génératives et les LLMs ne remplaceront pas les ingénieurs ou analystes de données, mais ceux qui savent comment utiliser ces outils d'IA pourront construire des pipelines de données plus capables et plus fiables plus rapidement.

Ils auront également accès à un outil qui peut vous aider à développer vos compétences en Python, SQL et modélisation de données en fournissant une variété d'exemples de code fonctionnel et en aidant à déboguer les erreurs et les processus de dépannage qui ne fonctionnent pas comme prévu.Apprenez des Techniques ainsi que des Outils d'Ingénierie de DonnéesDans ce cours, vous apprendrez à décomposer les problèmes d'ingénierie de données en une série de tâches pouvant être automatisées à l'aide de Python, SQL et de scripts en ligne de commande générés par un grand modèle de langage (LLM). Demander à une IA de "générer un script de traitement de données pour faire X, Y et Z" ne donnera probablement pas les résultats attendus.

Les LLMs sont des outils puissants, mais ils ne sont pas des oracles. Comme pour tout outil, nous devons comprendre ce dont il est capable et comment utiliser ses capacités pour répondre à nos besoins.

Ce cours vous montre comment réfléchir à travers les problèmes de transformation et de chargement de données, en construisant progressivement les composants d'une solution. Ce cours est organisé en plusieurs sujets qui couvrent les compétences fondamentales nécessaires pour commencer à travailler dans l'ingénierie de données en utilisant GenAI, y compris :

Introduction aux grands modèles de langage, modèles de fondation, et autres sujets d'IA liés à l'ingénierie de données.

Ce cours utilise Claude AI d'Anthropic, un grand modèle de langage bien adapté à la génération de code d'ingénierie de données et gratuit à utiliser.Travailler avec des fichiers CSV et JSONQualité des données et nettoyage des données, incluant statistiques et visualisationsProcessus d'extraction transformation et chargement (ETL)/ extraction, chargement et transformation (ELT)Bases de données relationnelles et NoSQLModélisation des données en utilisant des modèles de données dimensionnelsTravailler avec des données JSON dans des bases de données relationnelles comme PostgreSQLLe cours commence par les tâches d'ingénierie de données les plus basiques :

travailler avec des fichiers. Vous apprendrez à filtrer rapidement, transformer, et détecter les problèmes dans les ensembles de données constitués de valeurs séparées par des virgules (CSV) et de fichiers JSON.

Vous verrez également comment nous pouvons créer des échantillons à partir de grands ensembles de données pour expérimenter efficacement différentes solutions à nos besoins d'ingénieur de données. Vous apprendrez à générer du code qui utilise des utilitaires en ligne de commande comme awk, un outil de traitement de texte et d'extraction de données, et jq, un outil pour analyser, filtrer et transformer des données JSON.

Si vous n'êtes pas familier avec des outils comme awk et jq, ce n'est pas un problème. Dans ce cours, vous apprendrez à décrire ce que vous voulez dans une solution pour que le LLM puisse choisir un outil approprié pour le travail.La qualité des données est une préoccupation prioritaire dans tout projet d'ingénierie de données.

Heureusement, avec GenAI et une compréhension basique des vérifications de qualité des données, vous pouvez générer rapidement des scripts pour vérifier les problèmes de qualité de données courants et appliquer des transformations aux données pour corriger ces problèmes. Les statistiques et visualisations sont des outils importants pour assurer la qualité des données.

Dans ce cours, vous apprendrez à utiliser des statistiques et des visualisations basiques pour aider avec la qualité des données et l'exploration des données. Et parce que l'IA générative est utilisée pour générer du code, vous pouvez passer plus de temps à apprendre sur les statistiques, les visualisations, et comment les appliquer à votre domaine problématique, et moins de temps à chercher des erreurs de syntaxe ou à déboguer une erreur logique dans votre code.Les bases de données sont le fondement de nombreuses applications et plateformes d'analyse de données.

Vous apprendrez à propos des bases de données relationnelles ainsi que des bases de données NoSQL et quand les utiliser. Les bases de données sont des systèmes compliqués qui nécessitent que nous décrivions comment nous voulons structurer nos données.

Ce processus est connu sous le nom de modélisation des données. Ce cours introduira la modélisation des données en se concentrant sur la modélisation dimensionnelle, un modèle de données couramment utilisé dans l'analyse des données.

Vous apprendrez également à générer du code SQL pour implémenter des modèles dimensionnels, charger des données dans votre base de données, et interroger et analyser les données une fois chargées.Le moment est idéal pour devenir un ingénieur de données car la demande pour des compétences en ingénierie de données est élevée et nous avons maintenant des outils en place qui nous permettent de nous concentrer sur les problèmes que nous résolvons tout en accélérant la rapidité avec laquelle nous pouvons créer des pipelines de données évolutifs et fiables.

Programme

  • Vue d'ensemble du cours
  • Introduction à l'ingénierie des données et à l'IA générative
    Objectifs et résultats du cours
    Aperçu du programme et de la structure du cours
  • Notions de base de l'ingénierie des données
  • Introduction aux pipelines de données
    Concepts clés : ETL (Extract, Transform, Load)
    Aperçu des solutions de stockage de données : Bases de données, Lacs de données et Entrepôts
  • Introduction à l'IA générative
  • Qu'est-ce que l'IA générative ?
    Aperçu des modèles génératifs : GANs, VAEs et Transformers
  • Collecte et nettoyage des données
  • Sources de données et acquisition
    Qualité des données : Techniques de nettoyage et de prétraitement
    Automatisation du nettoyage des données avec l'IA générative
  • Systèmes de stockage des données
  • Bases de données relationnelles vs. non relationnelles
    Introduction au stockage et à la gestion dans le cloud
    Exploitation de l'IA générative pour la structuration des données
  • Transformation des données et ingénierie des caractéristiques
  • Processus de transformation en ingénierie des données
    Techniques de sélection et d'ingénierie des caractéristiques
    Rôle de l'IA générative dans la création de caractéristiques
  • Construction et gestion des pipelines de données
  • Architecture des pipelines et gestion des flux de travail
    Outils et plateformes pour l'automatisation des pipelines
    Utilisation de l'IA pour l'optimisation des pipelines
  • Introduction à l'infrastructure d'apprentissage automatique
  • Infrastructure ML dans l'ingénierie des données
    Gestion et mise à l'échelle des modèles ML avec l'IA générative
  • Études de cas et applications de l'IA générative en ingénierie des données
  • Applications réelles et études de cas
    Considérations éthiques et bonnes pratiques
  • Révision et travaux de projet
  • Projet de synthèse : Concevoir un pipeline de données avec intégration de l'IA générative
    Présentations et retour
  • Conclusion et perspectives d'avenir
  • Récapitulatif des sujets clés
    Tendances futures en ingénierie des données et en IA
    Feedback sur le cours et ressources d'apprentissage complémentaires

Enseigné par

Dan Sullivan


Sujets

Science des données