Aperçu
Raw images, audio clips, and text are only valuable when transformed into formats that AI models can actually use. This intermediate course equips you with the hands-on skills to build multimodal data processing pipelines across three core data types — visual, audio, and language — and to evaluate the AI models trained on them.
You will preprocess and enhance image data using normalization, color-space conversion, and quality correction techniques. You will extract motion features from video using optical flow and frame differencing.
On the audio side, you will apply spectral and cepstral feature extraction and build augmentation pipelines that improve model robustness. For language, you will fine-tune transformer models on domain-specific datasets and construct end-to-end text preprocessing pipelines using industry-standard tools.
Grounded in real-world job tasks from machine learning and AI roles, this course prepares you to take raw, unstructured data and shape it into training-ready inputs — a skill in high demand across AI, computer vision, speech, and NLP teams.
Programme
- Prétraitement et Normalisation des Images
Vous apprendrez les techniques de prétraitement d'image fondamentales essentielles aux applications de vision par ordinateur, y compris les méthodes de normalisation et les conversions d'espaces colorimétriques qui garantissent une performance modèle cohérente à travers des conditions visuelles diversifiées.
- Détection de Mouvement et Flux Optique
Vous apprendrez les techniques d'analyse de mouvement essentielles pour les applications dynamiques de vision par ordinateur, en mettant en œuvre des algorithmes de flux optique et des méthodes de différenciation de trames pour extraire des caractéristiques temporelles de séquences vidéo, pour des applications telles que le suivi d'objets et la reconnaissance d'actions.
- Fondamentaux de l'Analyse de Qualité d'Image
Vous apprendrez des techniques de diagnostic systématique pour identifier et catégoriser les problèmes courants de qualité d'image dans les jeux de données de vision par ordinateur.
- Appliquer des Techniques de Mitigation Ciblées
Vous mettrez en œuvre des solutions algorithmiques spécifiques pour corriger les problèmes de qualité d'image identifiés et valider les améliorations en utilisant des métriques quantitatives.
- Extraction de Caractéristiques Spectrales et Cepstrales pour l'Analyse Audio
Vous transformerez des formes d'onde audio brutes en caractéristiques numériques pour l'apprentissage automatique. Vous appliquerez des techniques d'analyse spectrale telles que le STFT et les MFCS, puis utiliserez des méthodes d'analyse cepstrale comme les MFCC pour extraire des représentations plus riches.
- Techniques d'Augmentation Audio pour la Généralisation des Modèles Réels
Vous concevrez et mettrez en œuvre des pipelines d'augmentation automatisée qui appliquent l'injection de bruit, des modifications temporelles et des transformations spectrales pour améliorer la généralisation du modèle dans des environnements acoustiques réels.
- Indicateurs de Performance des Modèles Audio et Analyse
Vous apprendrez des techniques d'évaluation quantitative de la performance pour les modèles audio, y compris le calcul de métriques standards de l'industrie et l'identification de schémas de dégradation à travers différents groupes d'utilisateurs.
- Améliorer la Robustesse des Modèles Audio à travers des Pipelines d'Augmentation
Vous apprendrez des techniques d'analyse systématique des causes profondes pour les échecs des modèles audio, y compris l'analyse qualitative des erreurs et la corrélation des facteurs environnementaux pour mettre en œuvre des stratégies de remédiation efficaces.
- Ajustement Fin des Modèles de Langage Transformers
Vous apprendrez le processus d'adaptation des modèles BERT pré-entrainés pour des domaines spécialisés en utilisant les Transformers de Hugging Face, atteignant une performance prête pour la production sur des tâches spécifiques au domaine.
- Développement de Pipeline de Prétraitement de Texte
Vous concevrez des pipelines de prétraitement de texte compréhensifs en utilisant spaCy qui transforment du texte brut en formats prêts pour l'analyse grâce à des workflows systématiques de tokenisation, normalisation et encodage.
- Introduction à la Méthodologie d'Évaluation Duale
Vous comprendrez les principes fondamentaux de la combinaison de métriques automatisées avec une évaluation humaine pour une évaluation exhaustive des modèles de langage.
- Mise en Œuvre d'une Évaluation de Modèle Compréhensive
Vous appliquerez des stratégies d'évaluation intégrées combinant des métriques automatisées avec le jugement humain pour mener des évaluations approfondies des modèles de langage dans des scénarios réalistes en milieu de travail.
- Projet : Préparation de Données Multimodales : Pipelines Vision, Audio et PNL
Dans ce module, vous concevrez et mettrez en œuvre un système d'IA multimodal qui intègre des techniques de vision par ordinateur, de traitement audio et de traitement de langage naturel. Vous construirez un pipeline de données complet incluant le prétraitement des données, l'extraction de caractéristiques, la fusion multimodale, l'entraînement du modèle et l'évaluation de la performance. À la fin de ce module, vous serez capable de développer et d'évaluer une application d'IA en situation réelle qui combine plusieurs types de données en un système intelligent unifié.
Enseigné par
Professionals from the Industry
Matières
Artificial Intelligence