Resumen
Raw images, audio clips, and text are only valuable when transformed into formats that AI models can actually use. This intermediate course equips you with the hands-on skills to build multimodal data processing pipelines across three core data types — visual, audio, and language — and to evaluate the AI models trained on them.
You will preprocess and enhance image data using normalization, color-space conversion, and quality correction techniques. You will extract motion features from video using optical flow and frame differencing.
On the audio side, you will apply spectral and cepstral feature extraction and build augmentation pipelines that improve model robustness. For language, you will fine-tune transformer models on domain-specific datasets and construct end-to-end text preprocessing pipelines using industry-standard tools.
Grounded in real-world job tasks from machine learning and AI roles, this course prepares you to take raw, unstructured data and shape it into training-ready inputs — a skill in high demand across AI, computer vision, speech, and NLP teams.
Programa
- Preprocesamiento y Normalización de Imágenes
Aprenderás las técnicas fundamentales de preprocesamiento de imágenes esenciales para aplicaciones de visión por computadora, incluyendo métodos de normalización y conversiones de espacio de color que aseguran un rendimiento consistente del modelo en diversas condiciones visuales.
- Detección de Movimiento y Flujo Óptico
Aprenderás técnicas de análisis de movimiento esenciales para aplicaciones dinámicas de visión por computadora, implementando algoritmos de flujo óptico y métodos de diferencia de fotogramas para extraer características temporales de secuencias de video para aplicaciones como seguimiento de objetos y reconocimiento de acciones.
- Fundamentos de Análisis de Calidad de Imagen
Aprenderás técnicas de diagnóstico sistemáticas para identificar y categorizar problemas comunes de calidad de imagen en conjuntos de datos de visión por computadora.
- Aplicar Técnicas de Mitigación Dirigidas
Implementarás soluciones algorítmicas específicas para corregir los problemas de calidad de imagen identificados y validar mejoras utilizando métricas cuantitativas.
- Extracción de Características Espectrales y Cepstrales para Análisis de Audio
Transformarás formas de onda de audio en bruto en características numéricas para aprendizaje automático. Aplicarás técnicas de análisis espectral como STFT y MFSCs. Luego utilizarás métodos de análisis cepstral como MFCCs para extraer representaciones más ricas.
- Técnicas de Aumento de Audio para Generalización de Modelos en el Mundo Real
Diseñarás e implementarás canalizaciones de aumento automatizadas que aplican inyección de ruido, modificaciones temporales y transformaciones espectrales para mejorar la generalización del modelo en entornos acústicos del mundo real.
- Métricas de Rendimiento de Modelos de Audio y Análisis
Aprenderás técnicas cuantitativas de evaluación de rendimiento para modelos de audio, incluyendo el cálculo de métricas estándar de la industria e identificación de patrones de degradación en diferentes cohortes de usuarios.
- Mejora de la Robustez de Modelos de Audio a través de Canalizaciones de Aumento
Aprenderás técnicas sistemáticas de análisis de causa raíz para fallas de modelos de audio, incluyendo el análisis cualitativo de errores y la correlación de factores ambientales para implementar estrategias efectivas de remediación.
- Ajuste Fino de Modelos de Lenguaje Transformador
Aprenderás el proceso de adaptar modelos BERT preentrenados para dominios especializados usando Hugging Face Transformers, logrando un rendimiento listo para producción en tareas específicas de dominio.
- Desarrollo de Canalización de Preprocesamiento de Texto
Construirás canalizaciones de preprocesamiento de texto comprensivas usando spaCy que transformen texto bruto en formatos listos para el análisis a través de flujos de trabajo sistemáticos de tokenización, normalización y codificación.
- Introducción a la Metodología de Evaluación Dual
Entenderás los principios fundamentales de combinar métricas automatizadas con evaluación con intervención humana para una valoración comprensiva de modelos de lenguaje.
- Implementación de Evaluación Integral de Modelos
Aplicarás estrategias de evaluación integradas que combinan métricas automatizadas con juicio humano para llevar a cabo una evaluación completa de modelos de lenguaje en escenarios realistas de trabajo.
- Proyecto: Preparación de Datos Multimodales: Canalizaciones de Visión, Audio y PLN
En este módulo, diseñarás e implementarás un sistema de IA multimodal que integra técnicas de visión por computadora, procesamiento de audio y procesamiento de lenguaje natural. Construirás una canalización de datos completa incluyendo preprocesamiento de datos, extracción de características, fusión multimodal, entrenamiento del modelo y evaluación de rendimiento. Al final de este módulo, serás capaz de desarrollar y evaluar una aplicación de IA del mundo real que combina múltiples tipos de datos en un sistema inteligente unificado.
Impartido por
Professionals from the Industry
Materias
Artificial Intelligence