Ce que vous devez savoir avant
Vous commencez

Débute 13 June 2026 08:46

Se termine 13 June 2026

00 Jours
00 Heures
00 Minutes
00 Secondes
course image

IA générative pour la vision par ordinateur

Explorez l'IA générative pour la vision par ordinateur, en couvrant les GANs, les VAEs, les modèles de diffusion, les transformateurs, et les LLMs comme GPT-4V pour des tâches comme la description d'images, le VQA, et le raisonnement multimodal.
NPTEL via Swayam

NPTEL

154 Cours


Not Specified

Amélioration optionnelle disponible

Avancé

Progressez à votre rythme

Free Online Course

Amélioration optionnelle disponible

Aperçu

ABOUT THE COURSE:

This course explores how Generative AI is applied to modern computer vision tasks. Unlike existing NPTEL courses, it specifically emphasized on vision-based generative AI models.

It begins with mathematical foundations and classical vision techniques, followed by deep learning architectures. The course then introduces generative learning paradigms including GANs, VAEs, diffusion models, and transformers with a discussion regarding evaluation metrics and training challenges like mode collapse, diffusion noise scheduling, etc.

Moreover, it includes LLM models for vision applications like GPT-4V, LLaMA, PaLM-E, Flamingo, etc. This course is primarily focusing on deep generative learning for computer vision tasks like Image Captioning, VQA, Scene Understanding etc.

It further discusses multimodal generative models and agentic AI systems for automatic image synthesis and reasoning.INTENDED AUDIENCE:

Final/Pre-final year B.Tech/BE, M.Tech/ME, MS, PhD students, Industry professionals, and Faculty members.PREREQUISITES:

Basics of Machine Learning and Computer Vision. Neural Networks for Vision and NLP.INDUSTRY SUPPORT:

Relevant for AI/ML roles in IT companies, startups, research labs, and product-based companies working in generative AI and computer vision domains.

Programme

  • Introduction
  • Aperçu de l'IA générative en vision par ordinateur
    Structure et objectifs du cours
    Révision des prérequis
  • Fondations Mathématiques
  • Probabilité et statistiques pour les modèles génératifs
    Algèbre linéaire et techniques d'optimisation
    Méthodes classiques en vision par ordinateur
  • Techniques Classiques de Vision
  • Détection et extraction de caractéristiques
    Filtrage et transformation d'images
    Segmentation et reconnaissance d'objets
  • Architectures d'Apprentissage Profond
  • Réseaux de Neurones Convolutionnels (CNN)
    Réseaux de Neurones Récurrents (RNN) et LSTMs
    Mécanismes d'attention et Transformateurs
  • Paradigmes d'Apprentissage Génératif
  • Réseaux Antagonistes Génératifs (GAN)
    Architecture et fonctions de perte
    Effondrement de mode et métriques d'évaluation
    Autoencodeurs Variationnels (VAE)
    Représentation de l'espace latent
    Techniques de régularisation
    Modèles de Diffusion
    Procédures de bruit et débruitage
    Méthodes de programmation de bruit
  • Modèles Génératifs Multimodaux
  • Aperçu et importance
    Systèmes IA agents pour la synthèse d'images
  • Transformateurs et Applications en Vision
  • Transformateurs de Vision (ViT)
    Grands Modèles de Langue pour la vision
    GPT-4V, LLaMA, PaLM-E, Flamingo
    Annotation d'images et réponses à des questions visuelles (VQA)
    Compréhension de scènes et synthèse d'images
  • Défis de l'Entraînement et Métriques d'Évaluation
  • Remèdes au surapprentissage et sous-apprentissage
    Effondrement de mode dans les GAN
    Aspects d'évaluation pour les modèles génératifs
  • Domaines d'Application et Études de Cas
  • Annotation d'images et réponses à des questions visuelles
    Compréhension de scènes
    Synthèse d'images automatique et raisonnement
  • Cas d'Utilisation en Industrie et Domaines de Recherche Ouverts
  • Applications dans le monde réel
    Tendances actuelles en recherche et développement
  • Conclusion du Cours
  • Résumé des résultats clés d'apprentissage
    Directions futures et parcours professionnels en IA générative pour la vision par ordinateur
  • Devoirs et Travaux de Projet
  • Exercices hebdomadaires et devoirs de programmation
    Projet de fin de cours : Implémentation d'un modèle d'IA générative basé sur la vision
  • Ressources Supplémentaires
  • Lectures recommandées et articles de recherche
    Forums en ligne et communautés pour un apprentissage approfondi

Enseigné par

Prof. Arijit Sur


Matières

Artificial Intelligence