Qué necesitas saber antes de
comenzar
Inicio 4 June 2026 07:30
Fin 4 June 2026
Dando Visión a los Modelos de Voz
Massachusetts Institute of Technology
5 Cursos
El Instituto de Tecnología de Massachusetts (MIT) es una universidad de investigación de renombre mundial conocida por su plan de estudios interdisciplinario, investigación innovadora y descubrimientos revolucionarios.
24 minutes
Actualización opcional disponible
Not Specified
Avanza a tu propio ritmo
Free Video
Actualización opcional disponible
Resumen
Discover the groundbreaking integration of visual lip features into speech recognition models through Whisper-Flamingo, an innovative approach that significantly enhances performance in challenging, noisy environments. This advancement not only improves English speech recognition but also offers superior multilingual translation capabilities.
Join this compelling exploration presented by the renowned Massachusetts Institute of Technology, available on YouTube.
Enhance your understanding of modern speech recognition and artificial intelligence by delving into this fascinating development within the fields of AI and computer science.
Programa
- **Introducción a Whisper-Flamingo**
- **Fundamentos del Reconocimiento de Voz**
- **Introducción a las Características Visuales de los Labios**
- **Integración de Datos Visuales y de Audio**
- **Mejora del Desempeño en Condiciones Ruidosas**
- **Reconocimiento de Voz en Inglés**
- **Traducción Multilingüe con Whisper-Flamingo**
- **Evaluación del Modelo y Métricas de Desempeño**
- **Temas Avanzados y Direcciones Futuras**
- **Proyecto e Implementación Práctica**
- **Cierre del Curso y Próximos Pasos**
Materias
Computer Science