Qué necesitas saber antes de
comenzar

Inicio 7 June 2026 09:16

Fin 7 June 2026

00 Días
00 Horas
00 Minutos
00 Segundos
course image

Programación de IA Generativa: Unidad 3

Domina la inteligencia artificial multimodal explorando el preentrenamiento contrastivo de lenguaje e imagen, los modelos de difusión latente y la generación de texto a imagen con técnicas prácticas de ajuste fino.
via Coursera

2889 Cursos


8 hours 17 minutes

Actualización opcional disponible

Not Specified

Avanza a tu propio ritmo

Paid Course

Actualización opcional disponible

Resumen

Unlock the full potential of generative AI with our advanced course module focused on state-of-the-art multimodal models. This course is designed for learners eager to bridge the gap between images and text, and to master the latest techniques in AI-driven content generation.

You’ll begin by exploring the foundational concepts behind multimodal models, learning how contrastive language-image pre-training enables seamless integration of visual and textual data. Discover how these models power innovative applications like semantic image search, allowing you to query image content without manual labeling.

Dive deeper into the mechanics of latent diffusion models and unravel the inner workings of stable diffusion, gaining the skills to transform text prompts into entirely new, never-before-seen images. The course also covers essential strategies for evaluating generative models and introduces efficient methods for fine-tuning and adapting pre-trained models to new styles and subjects.

By the end, you’ll be equipped to build, adapt, and optimize cutting-edge text-to-image systems—ready to innovate in creative, research, or commercial settings.

Programa

  • Programación de IA Generativa: Unidad 3
  • Este módulo profundiza en la IA generativa multimodal, centrándose en modelos que conectan imágenes y texto. Los estudiantes exploran el preentrenamiento contrastivo de lenguaje-imagen para la búsqueda semántica de imágenes y descubren el funcionamiento de la difusión latente y la difusión estable para la generación de texto a imagen. El módulo luego cubre la evaluación de modelos generativos, el ajuste fino eficiente de parámetros y técnicas para enseñar a los modelos preentrenados nuevos estilos y temas. Concluye con métodos para optimizar modelos de difusión para una generación de imágenes más rápida, casi en tiempo real, equipando a los estudiantes con tanto comprensión conceptual como habilidades prácticas en sistemas avanzados de IA multimodal.

Impartido por

Pearson


Materias

Computer Science