Qué necesitas saber antes de
comenzar

Inicio 4 June 2026 13:44

Fin 4 June 2026

00 Días
00 Horas
00 Minutos
00 Segundos
course image

Preparación de Datos Multimodales: Canalizaciones de Visión, Audio y PLN

Domina la construcción de tuberías de datos multimodales para visión, audio y PNL. Preprocesa imágenes, extrae características de audio, ajusta transformadores y evalúa modelos de inteligencia artificial entrenados con datos no estructurados del mundo real.
Coursera via Coursera

Coursera

2868 Cursos


11 hours 14 minutes

Actualización opcional disponible

Intermedio

Avanza a tu propio ritmo

Paid Course

Actualización opcional disponible

Resumen

Raw images, audio clips, and text are only valuable when transformed into formats that AI models can actually use. This intermediate course equips you with the hands-on skills to build multimodal data processing pipelines across three core data types — visual, audio, and language — and to evaluate the AI models trained on them.

You will preprocess and enhance image data using normalization, color-space conversion, and quality correction techniques. You will extract motion features from video using optical flow and frame differencing.

On the audio side, you will apply spectral and cepstral feature extraction and build augmentation pipelines that improve model robustness. For language, you will fine-tune transformer models on domain-specific datasets and construct end-to-end text preprocessing pipelines using industry-standard tools.

Grounded in real-world job tasks from machine learning and AI roles, this course prepares you to take raw, unstructured data and shape it into training-ready inputs — a skill in high demand across AI, computer vision, speech, and NLP teams.

Programa

  • Preprocesamiento y Normalización de Imágenes
  • Aprenderás las técnicas fundamentales de preprocesamiento de imágenes esenciales para aplicaciones de visión por computadora, incluyendo métodos de normalización y conversiones de espacio de color que aseguran un rendimiento consistente del modelo en diversas condiciones visuales.
  • Detección de Movimiento y Flujo Óptico
  • Aprenderás técnicas de análisis de movimiento esenciales para aplicaciones dinámicas de visión por computadora, implementando algoritmos de flujo óptico y métodos de diferencia de fotogramas para extraer características temporales de secuencias de video para aplicaciones como seguimiento de objetos y reconocimiento de acciones.
  • Fundamentos de Análisis de Calidad de Imagen
  • Aprenderás técnicas de diagnóstico sistemáticas para identificar y categorizar problemas comunes de calidad de imagen en conjuntos de datos de visión por computadora.
  • Aplicar Técnicas de Mitigación Dirigidas
  • Implementarás soluciones algorítmicas específicas para corregir los problemas de calidad de imagen identificados y validar mejoras utilizando métricas cuantitativas.
  • Extracción de Características Espectrales y Cepstrales para Análisis de Audio
  • Transformarás formas de onda de audio en bruto en características numéricas para aprendizaje automático. Aplicarás técnicas de análisis espectral como STFT y MFSCs. Luego utilizarás métodos de análisis cepstral como MFCCs para extraer representaciones más ricas.
  • Técnicas de Aumento de Audio para Generalización de Modelos en el Mundo Real
  • Diseñarás e implementarás canalizaciones de aumento automatizadas que aplican inyección de ruido, modificaciones temporales y transformaciones espectrales para mejorar la generalización del modelo en entornos acústicos del mundo real.
  • Métricas de Rendimiento de Modelos de Audio y Análisis
  • Aprenderás técnicas cuantitativas de evaluación de rendimiento para modelos de audio, incluyendo el cálculo de métricas estándar de la industria e identificación de patrones de degradación en diferentes cohortes de usuarios.
  • Mejora de la Robustez de Modelos de Audio a través de Canalizaciones de Aumento
  • Aprenderás técnicas sistemáticas de análisis de causa raíz para fallas de modelos de audio, incluyendo el análisis cualitativo de errores y la correlación de factores ambientales para implementar estrategias efectivas de remediación.
  • Ajuste Fino de Modelos de Lenguaje Transformador
  • Aprenderás el proceso de adaptar modelos BERT preentrenados para dominios especializados usando Hugging Face Transformers, logrando un rendimiento listo para producción en tareas específicas de dominio.
  • Desarrollo de Canalización de Preprocesamiento de Texto
  • Construirás canalizaciones de preprocesamiento de texto comprensivas usando spaCy que transformen texto bruto en formatos listos para el análisis a través de flujos de trabajo sistemáticos de tokenización, normalización y codificación.
  • Introducción a la Metodología de Evaluación Dual
  • Entenderás los principios fundamentales de combinar métricas automatizadas con evaluación con intervención humana para una valoración comprensiva de modelos de lenguaje.
  • Implementación de Evaluación Integral de Modelos
  • Aplicarás estrategias de evaluación integradas que combinan métricas automatizadas con juicio humano para llevar a cabo una evaluación completa de modelos de lenguaje en escenarios realistas de trabajo.
  • Proyecto: Preparación de Datos Multimodales: Canalizaciones de Visión, Audio y PLN
  • En este módulo, diseñarás e implementarás un sistema de IA multimodal que integra técnicas de visión por computadora, procesamiento de audio y procesamiento de lenguaje natural. Construirás una canalización de datos completa incluyendo preprocesamiento de datos, extracción de características, fusión multimodal, entrenamiento del modelo y evaluación de rendimiento. Al final de este módulo, serás capaz de desarrollar y evaluar una aplicación de IA del mundo real que combina múltiples tipos de datos en un sistema inteligente unificado.

Impartido por

Professionals from the Industry


Materias

Artificial Intelligence