Ce que vous devez savoir avant
Vous commencez

Débute 4 June 2026 10:58

Se termine 4 June 2026

00 Jours
00 Heures
00 Minutes
00 Secondes
course image

IA générative pour l'audio et les images : modèles et applications

Explorez des modèles avancés d'IA générative tels que les VAE, les GAN, les Transformers et la Diffusion pour créer du contenu audio, image et vidéo avec des considérations éthiques.
Alberta Machine Intelligence Institute via Coursera

Alberta Machine Intelligence Institute

2868 Cours


1 day 5 hours 17 minutes

Amélioration optionnelle disponible

Avancé

Progressez à votre rythme

Paid Course

Amélioration optionnelle disponible

Aperçu

Generative AI for Audio and Images:

Models and Applications offers an in-depth exploration of how modern generative models such as Variational Autoencoders (VAEs), Generative Adversarial Networks (GANs), Transformers, and Diffusion models are used to create, manipulate, and enhance audio, image, and video content. Learners examine the architectures, training processes, and use cases of these models across different modalities, gaining both conceptual understanding and practical insights through hands-on activities.

The course also highlights the ethical and societal implications of generative AI, including bias, transparency, intellectual property, and the challenges of deepfake technologies. By covering foundational theory as well as state-of-the-art approaches and applications, this course prepares learners to apply and develop generative AI creatively and responsibly for the audio and image modalities.

By the end of this course, learners will be able to:

Outline core concepts, challenges, and the history of AI-generated audio. Analyze important foundational audio generation models, such as variational and vector quantized autoencoders (VAE and VQ-VAE) Examine how these models integrate with the latest GenAI technologies to form hybrid, state-of-the-art transformer and diffusion-based audio generation systems, Study the architecture and functionality of Generative Adversarial Networks (GANs), and their variations.

Implement and train GAN models for creating and enhancing visual content, Explore cutting-edge techniques such as diffusion models and transformers for image and video creation. Discuss the ethical considerations regarding generative AI for audio and images.

Programme

  • Les Fondamentaux de l'audio généré par l'IA
  • Ce module introduit les fondations et concepts clés de l'audio généré par l'IA. Les apprenants explorent pourquoi la génération d'audio est un défi unique, comme les défis de représentation et d'évaluation. Ils apprennent comment l'audio est représenté et traité, comparent les formats d'onde et symboliques, ainsi que les formats de données audio courants et les bibliothèques Python pour travailler avec l'audio. Le module examine également des méthodes pour évaluer l'audio généré et fournit un cadre pour catégoriser les approches de génération audio par leur fonctionnalité et le niveau de collaboration entre humain et IA. Il se termine par un aperçu historique de l'audio généré par l'IA, retraçant son évolution des méthodes basées sur les règles aux modèles génératifs profonds modernes.
  • Génération audio avancée avec l'IA générative
  • S'appuyant sur les fondamentaux, ce module plonge dans les modèles avancés pour la génération d'audio. Les apprenants étudient les autoencodeurs variationnels (VAEs) et leurs variantes, et comment ils s'appliquent à la génération de mélodies et à la synthèse vocale. Le module explore également les modèles basés sur transformateur, tels que Music Transformer, AudioLM et FastSpeech, ainsi que les modèles basés sur la diffusion comme DiffWave et Stable Audio. À travers ces leçons, les apprenants acquièrent une compréhension complète de la manière dont les architectures génératives modernes produisent un audio et une musique réalistes et de haute qualité.
  • Introduction aux modèles d'image génératifs
  • Ce module passe de la génération audio à la génération d'images, en introduisant les principes et l'évolution de la synthèse d'images et de vidéos. Les apprenants examinent les architectures clés comme les GANs et les VAEs, explorent le fonctionnement de l'entraînement adversarial, et étudient des variations telles que les GANs conditionnels et progressifs, Pix2Pix et CycleGAN. Le module relie la théorie à la pratique en présentant des applications créatives et commerciales—de l'art et du design à l'augmentation des données—démontrant comment les modèles génératifs améliorent le réalisme et la variété des sorties visuelles.
  • Génération avancée d'images et de vidéos avec l'IA générative
  • Dans ce module, nous explorons les dernières étapes de ce que les grands modèles de langage (LLMs) peuvent offrir. Vous apprendrez comment et quand utiliser le fine-tuning, ainsi que les avantages et inconvénients des différentes approches. Tout au long du cours, vous recevrez des devoirs pertinents qui vous prépareront au projet de fin d'études : construire un chatbot entièrement fonctionnel.

Enseigné par

Anahita Doosti and Soroush Razavi


Matières

Artificial Intelligence