Ce que vous devez savoir avant
Vous commencez

Débute 5 July 2026 13:16

Se termine 5 July 2026

00 Jours

00 Heures

00 Minutes

00 Secondes

S'inscrire

IA générative pour la vision par ordinateur

Explorez l'IA générative pour la vision par ordinateur, en couvrant les GANs, les VAEs, les modèles de diffusion, les transformateurs, et les LLMs comme GPT-4V pour des tâches comme la description d'images, le VQA, et le raisonnement multimodal.

NPTEL via Swayam

Not Specified

Amélioration optionnelle disponible

Avancé

Progressez à votre rythme

Free Online Course

Amélioration optionnelle disponible

Aperçu

ABOUT THE COURSE:

This course explores how Generative AI is applied to modern computer vision tasks. Unlike existing NPTEL courses, it specifically emphasized on vision-based generative AI models.

It begins with mathematical foundations and classical vision techniques, followed by deep learning architectures. The course then introduces generative learning paradigms including GANs, VAEs, diffusion models, and transformers with a discussion regarding evaluation metrics and training challenges like mode collapse, diffusion noise scheduling, etc.

Moreover, it includes LLM models for vision applications like GPT-4V, LLaMA, PaLM-E, Flamingo, etc. This course is primarily focusing on deep generative learning for computer vision tasks like Image Captioning, VQA, Scene Understanding etc.

It further discusses multimodal generative models and agentic AI systems for automatic image synthesis and reasoning.INTENDED AUDIENCE:

Final/Pre-final year B.Tech/BE, M.Tech/ME, MS, PhD students, Industry professionals, and Faculty members.PREREQUISITES:

Basics of Machine Learning and Computer Vision. Neural Networks for Vision and NLP.INDUSTRY SUPPORT:

Relevant for AI/ML roles in IT companies, startups, research labs, and product-based companies working in generative AI and computer vision domains.

Programme

Introduction

Aperçu de l'IA générative en vision par ordinateur

Structure et objectifs du cours

Révision des prérequis

Fondations Mathématiques

Probabilité et statistiques pour les modèles génératifs

Algèbre linéaire et techniques d'optimisation

Méthodes classiques en vision par ordinateur

Techniques Classiques de Vision

Détection et extraction de caractéristiques

Filtrage et transformation d'images

Segmentation et reconnaissance d'objets

Architectures d'Apprentissage Profond

Réseaux de Neurones Convolutionnels (CNN)

Réseaux de Neurones Récurrents (RNN) et LSTMs

Mécanismes d'attention et Transformateurs

Paradigmes d'Apprentissage Génératif

Réseaux Antagonistes Génératifs (GAN)

Architecture et fonctions de perte

Effondrement de mode et métriques d'évaluation

Autoencodeurs Variationnels (VAE)

Représentation de l'espace latent

Techniques de régularisation

Modèles de Diffusion

Procédures de bruit et débruitage

Méthodes de programmation de bruit

Modèles Génératifs Multimodaux

Aperçu et importance

Systèmes IA agents pour la synthèse d'images

Transformateurs et Applications en Vision

Transformateurs de Vision (ViT)

Grands Modèles de Langue pour la vision

GPT-4V, LLaMA, PaLM-E, Flamingo

Annotation d'images et réponses à des questions visuelles (VQA)

Compréhension de scènes et synthèse d'images

Défis de l'Entraînement et Métriques d'Évaluation

Remèdes au surapprentissage et sous-apprentissage

Effondrement de mode dans les GAN

Aspects d'évaluation pour les modèles génératifs

Domaines d'Application et Études de Cas

Annotation d'images et réponses à des questions visuelles

Compréhension de scènes

Synthèse d'images automatique et raisonnement

Cas d'Utilisation en Industrie et Domaines de Recherche Ouverts

Applications dans le monde réel

Tendances actuelles en recherche et développement

Conclusion du Cours

Résumé des résultats clés d'apprentissage

Directions futures et parcours professionnels en IA générative pour la vision par ordinateur

Devoirs et Travaux de Projet

Exercices hebdomadaires et devoirs de programmation

Projet de fin de cours : Implémentation d'un modèle d'IA générative basé sur la vision

Ressources Supplémentaires

Lectures recommandées et articles de recherche

Forums en ligne et communautés pour un apprentissage approfondi

Enseigné par

Prof. Arijit Sur

Matières

Artificial Intelligence

Ce que vous devez savoir avant Vous commencez

IA générative pour la vision par ordinateur

Not Specified

Avancé

Free Online Course

Aperçu

Programme

Enseigné par

Matières

Faire Progresser Votre Carrière dans l'IA de Production

Bioproduction industrielle : des cellules aux produits

Automatiser les processus fiscaux de routine

Construire des agents d'IA multimodaux

Algorithmes mathématiques dans l'intelligence artificielle

Algorithme mathématique dans l'IA

Ce que vous devez savoir avant
Vous commencez