Qué necesitas saber antes de
comenzar

Inicio 4 June 2026 10:58

Fin 4 June 2026

00 Días
00 Horas
00 Minutos
00 Segundos
course image

IA generativa para audio e imágenes: modelos y aplicaciones

Explore modelos avanzados de IA generativa como VAEs, GANs, Transformers y Difusión para crear contenido de audio, imagen y video con consideraciones éticas.
Alberta Machine Intelligence Institute via Coursera

Alberta Machine Intelligence Institute

2868 Cursos


1 day 5 hours 17 minutes

Actualización opcional disponible

Avanzado

Avanza a tu propio ritmo

Paid Course

Actualización opcional disponible

Resumen

Generative AI for Audio and Images:

Models and Applications offers an in-depth exploration of how modern generative models such as Variational Autoencoders (VAEs), Generative Adversarial Networks (GANs), Transformers, and Diffusion models are used to create, manipulate, and enhance audio, image, and video content. Learners examine the architectures, training processes, and use cases of these models across different modalities, gaining both conceptual understanding and practical insights through hands-on activities.

The course also highlights the ethical and societal implications of generative AI, including bias, transparency, intellectual property, and the challenges of deepfake technologies. By covering foundational theory as well as state-of-the-art approaches and applications, this course prepares learners to apply and develop generative AI creatively and responsibly for the audio and image modalities.

By the end of this course, learners will be able to:

Outline core concepts, challenges, and the history of AI-generated audio. Analyze important foundational audio generation models, such as variational and vector quantized autoencoders (VAE and VQ-VAE) Examine how these models integrate with the latest GenAI technologies to form hybrid, state-of-the-art transformer and diffusion-based audio generation systems, Study the architecture and functionality of Generative Adversarial Networks (GANs), and their variations.

Implement and train GAN models for creating and enhancing visual content, Explore cutting-edge techniques such as diffusion models and transformers for image and video creation. Discuss the ethical considerations regarding generative AI for audio and images.

Programa

  • Los fundamentos del audio generado por IA
  • Este módulo introduce las bases y conceptos clave del audio generado por IA. Los estudiantes exploran por qué la generación de audio es un desafío único, como los desafíos de representación y evaluación. Aprenden cómo se representa y procesa el audio, comparan formatos de forma de onda y simbólicos, y examinan formatos de datos de audio comunes y bibliotecas de Python para trabajar con audio. El módulo también examina métodos para evaluar el audio generado y proporciona un marco para categorizar los enfoques de generación de audio según su funcionalidad y nivel de colaboración humano-IA. Concluye con una visión histórica del audio generado por IA, rastreando su evolución desde métodos basados en reglas hasta los modernos modelos generativos profundos.
  • Generación avanzada de audio con IA generativa
  • Basado en los fundamentos, este módulo profundiza en modelos avanzados para la generación de audio. Los estudiantes estudian autoencoders variacionales (VAEs) y sus variantes, y cómo se aplican a la generación de melodías y la síntesis de voz. El módulo también explora modelos basados en transformadores, como Music Transformer, AudioLM y FastSpeech, así como modelos basados en difusión como DiffWave y Stable Audio. A través de estas lecciones, los estudiantes adquieren una comprensión integral de cómo las arquitecturas generativas modernas producen audio y música realistas y de alta calidad.
  • Introducción a los modelos generativos de imagen
  • Este módulo realiza la transición de la generación de audio a la de imágenes, introduciendo los principios y la evolución de la síntesis de imágenes y videos. Los estudiantes examinan arquitecturas clave como GANs y VAEs, exploran cómo funciona el entrenamiento adversarial y estudian variaciones como GANs condicionales y progresivos, Pix2Pix y CycleGAN. El módulo también conecta la teoría con la práctica al mostrar aplicaciones creativas y comerciales, desde arte y diseño hasta aumento de datos, demostrando cómo los modelos generativos mejoran el realismo y la variedad en las salidas visuales.
  • Generación avanzada de imágenes y videos con IA generativa
  • En este módulo, exploramos las etapas finales de lo que los grandes modelos de lenguaje (LLMs) pueden ofrecer. Aprenderás cómo y cuándo usar el ajuste fino, junto con los pros y los contras de diferentes enfoques. A lo largo del curso, recibirás asignaciones relevantes que te prepararán para el proyecto final: construir un chatbot completamente funcional.

Impartido por

Anahita Doosti and Soroush Razavi


Materias

Artificial Intelligence