Ce que vous devez savoir avant
Vous commencez

Débute 4 June 2026 13:44

Se termine 4 June 2026

00 Jours
00 Heures
00 Minutes
00 Secondes
course image

Préparation des données multimodales : pipelines de vision, audio et NLP

Maîtrisez la construction de pipelines de données multimodaux pour la vision, l'audio et le traitement du langage naturel. Prétraitez les images, extrayez les caractéristiques audio, ajustez les transformateurs, et évaluez les modèles d'IA entraînés sur des données non structurées du monde réel.
Coursera via Coursera

Coursera

2868 Cours


11 hours 14 minutes

Amélioration optionnelle disponible

Intermédiaire

Progressez à votre rythme

Paid Course

Amélioration optionnelle disponible

Aperçu

Raw images, audio clips, and text are only valuable when transformed into formats that AI models can actually use. This intermediate course equips you with the hands-on skills to build multimodal data processing pipelines across three core data types — visual, audio, and language — and to evaluate the AI models trained on them.

You will preprocess and enhance image data using normalization, color-space conversion, and quality correction techniques. You will extract motion features from video using optical flow and frame differencing.

On the audio side, you will apply spectral and cepstral feature extraction and build augmentation pipelines that improve model robustness. For language, you will fine-tune transformer models on domain-specific datasets and construct end-to-end text preprocessing pipelines using industry-standard tools.

Grounded in real-world job tasks from machine learning and AI roles, this course prepares you to take raw, unstructured data and shape it into training-ready inputs — a skill in high demand across AI, computer vision, speech, and NLP teams.

Programme

  • Prétraitement et Normalisation des Images
  • Vous apprendrez les techniques de prétraitement d'image fondamentales essentielles aux applications de vision par ordinateur, y compris les méthodes de normalisation et les conversions d'espaces colorimétriques qui garantissent une performance modèle cohérente à travers des conditions visuelles diversifiées.
  • Détection de Mouvement et Flux Optique
  • Vous apprendrez les techniques d'analyse de mouvement essentielles pour les applications dynamiques de vision par ordinateur, en mettant en œuvre des algorithmes de flux optique et des méthodes de différenciation de trames pour extraire des caractéristiques temporelles de séquences vidéo, pour des applications telles que le suivi d'objets et la reconnaissance d'actions.
  • Fondamentaux de l'Analyse de Qualité d'Image
  • Vous apprendrez des techniques de diagnostic systématique pour identifier et catégoriser les problèmes courants de qualité d'image dans les jeux de données de vision par ordinateur.
  • Appliquer des Techniques de Mitigation Ciblées
  • Vous mettrez en œuvre des solutions algorithmiques spécifiques pour corriger les problèmes de qualité d'image identifiés et valider les améliorations en utilisant des métriques quantitatives.
  • Extraction de Caractéristiques Spectrales et Cepstrales pour l'Analyse Audio
  • Vous transformerez des formes d'onde audio brutes en caractéristiques numériques pour l'apprentissage automatique. Vous appliquerez des techniques d'analyse spectrale telles que le STFT et les MFCS, puis utiliserez des méthodes d'analyse cepstrale comme les MFCC pour extraire des représentations plus riches.
  • Techniques d'Augmentation Audio pour la Généralisation des Modèles Réels
  • Vous concevrez et mettrez en œuvre des pipelines d'augmentation automatisée qui appliquent l'injection de bruit, des modifications temporelles et des transformations spectrales pour améliorer la généralisation du modèle dans des environnements acoustiques réels.
  • Indicateurs de Performance des Modèles Audio et Analyse
  • Vous apprendrez des techniques d'évaluation quantitative de la performance pour les modèles audio, y compris le calcul de métriques standards de l'industrie et l'identification de schémas de dégradation à travers différents groupes d'utilisateurs.
  • Améliorer la Robustesse des Modèles Audio à travers des Pipelines d'Augmentation
  • Vous apprendrez des techniques d'analyse systématique des causes profondes pour les échecs des modèles audio, y compris l'analyse qualitative des erreurs et la corrélation des facteurs environnementaux pour mettre en œuvre des stratégies de remédiation efficaces.
  • Ajustement Fin des Modèles de Langage Transformers
  • Vous apprendrez le processus d'adaptation des modèles BERT pré-entrainés pour des domaines spécialisés en utilisant les Transformers de Hugging Face, atteignant une performance prête pour la production sur des tâches spécifiques au domaine.
  • Développement de Pipeline de Prétraitement de Texte
  • Vous concevrez des pipelines de prétraitement de texte compréhensifs en utilisant spaCy qui transforment du texte brut en formats prêts pour l'analyse grâce à des workflows systématiques de tokenisation, normalisation et encodage.
  • Introduction à la Méthodologie d'Évaluation Duale
  • Vous comprendrez les principes fondamentaux de la combinaison de métriques automatisées avec une évaluation humaine pour une évaluation exhaustive des modèles de langage.
  • Mise en Œuvre d'une Évaluation de Modèle Compréhensive
  • Vous appliquerez des stratégies d'évaluation intégrées combinant des métriques automatisées avec le jugement humain pour mener des évaluations approfondies des modèles de langage dans des scénarios réalistes en milieu de travail.
  • Projet : Préparation de Données Multimodales : Pipelines Vision, Audio et PNL
  • Dans ce module, vous concevrez et mettrez en œuvre un système d'IA multimodal qui intègre des techniques de vision par ordinateur, de traitement audio et de traitement de langage naturel. Vous construirez un pipeline de données complet incluant le prétraitement des données, l'extraction de caractéristiques, la fusion multimodale, l'entraînement du modèle et l'évaluation de la performance. À la fin de ce module, vous serez capable de développer et d'évaluer une application d'IA en situation réelle qui combine plusieurs types de données en un système intelligent unifié.

Enseigné par

Professionals from the Industry


Matières

Artificial Intelligence