Ce que vous devez savoir avant
Vous commencez

Débute 16 July 2026 15:17

Se termine 16 July 2026

00 Jours

00 Heures

00 Minutes

00 Secondes

Donner la vue aux modèles de parole

Découvrez l'intégration révolutionnaire des caractéristiques visuelles des lèvres dans les modèles de reconnaissance vocale grâce à Whisper-Flamingo, une approche innovante qui améliore considérablement les performances dans des environnements difficiles et bruyants. Cette avancée améliore non seulement la reconnaissance vocale en anglais mai.

Massachusetts Institute of Technology via YouTube

24 minutes

Amélioration optionnelle disponible

Not Specified

Progressez à votre rythme

Free Video

Amélioration optionnelle disponible

Aperçu

Discover the groundbreaking integration of visual lip features into speech recognition models through Whisper-Flamingo, an innovative approach that significantly enhances performance in challenging, noisy environments. This advancement not only improves English speech recognition but also offers superior multilingual translation capabilities.

Join this compelling exploration presented by the renowned Massachusetts Institute of Technology, available on YouTube.

Enhance your understanding of modern speech recognition and artificial intelligence by delving into this fascinating development within the fields of AI and computer science.

Programme

**Introduction à Whisper-Flamingo**

Aperçu des technologies de reconnaissance vocale

Introduction au modèle Whisper-Flamingo

Principaux avantages de l'intégration des données visuelles et audio

**Fondamentaux de la Reconnaissance Vocale**

Bases du traitement des signaux audio

Aperçu des modèles traditionnels de reconnaissance vocale

Rôle du bruit dans la précision de la reconnaissance vocale

**Introduction aux Caractéristiques Visuelles des Lèvres**

Bases de la technologie de lecture labiale

Importance des indices visuels dans la reconnaissance vocale

Défis de l'intégration des données visuelles

**Intégration des Données Visuelles et Audio**

Techniques de prétraitement des données

Synchronisation des entrées audio et visuelles

Entraînement des modèles sur des ensembles de données multimodaux

**Amélioration des Performances dans des Conditions Bruyantes**

Défis posés par les environnements bruyants

Techniques de réduction du bruit

Rôle des caractéristiques visuelles dans la robustesse au bruit

**Reconnaissance Vocale de la Langue Anglaise**

Défis spécifiques de la reconnaissance en anglais

Améliorations apportées par l'intégration visuelle

Études de cas et applications réelles

**Traduction Multilingue avec Whisper-Flamingo**

Défis de la reconnaissance vocale multilingue

Impact des indices visuels sur la précision de la traduction

Évaluation des performances du modèle à travers les langues

**Évaluation du Modèle et Mesures de Performance**

Indicateurs clés de performance pour les modèles de reconnaissance vocale

Techniques pour tester la robustesse du modèle

Analyse comparative avec les modèles traditionnels

**Sujets Avancés et Directions Futures**

Avancées récentes en IA multimodale

Applications potentielles et domaines de recherche

Considérations éthiques et questions de confidentialité

**Projet et Mise en Œuvre Pratique**

Projet pratique : Construire un système simple de reconnaissance vocale multimodal

Outils et ressources pour la mise en œuvre pratique

Présentation finale du projet et retour d'information

**Conclusion du Cours et Prochaines Étapes**

Récapitulatif des apprentissages clés

Ressources pour l'apprentissage continu

Opportunités de recherche et développement dans le domaine

Matières

Computer Science

Ce que vous devez savoir avant Vous commencez

Donner la vue aux modèles de parole

24 minutes

Not Specified

Free Video

Aperçu

Programme

Matières

Interprétabilité des LLM - Génération de Descriptions de Caractéristiques SAE - Printemps 2026

CodeCloak : une méthode basée sur DRL pour atténuer les fuites de code par les assistants de code LLM

Intelligence artificielle pratique pour les chasseurs de primes - NahamCon 2024

Transformation des infrastructures urbaines soutenue par l'IA - Villes intelligentes et optimisation énergétique

Gestion de la Mobilité dans les Villes Intelligentes : Utilisation de l'IoT et de l'IA pour l'Impact Environnemental

Une vie de recherche en conception dans l'interaction homme-machine

Ce que vous devez savoir avant
Vous commencez