Qué necesitas saber antes de
comenzar

Inicio 19 June 2026 07:33

Fin 19 June 2026

00 Días
00 Horas
00 Minutos
00 Segundos
course image

IA generativa para la visión por computadora

Explore la IA generativa para visión por computadora, cubriendo GANs, VAEs, modelos de difusión, transformers y LLMs como GPT-4V para tareas como generación de descripciones de imágenes, preguntas visuales automatizadas (VQA), y razonamiento multimodal.
NPTEL via Swayam

NPTEL

159 Cursos


Not Specified

Actualización opcional disponible

Avanzado

Avanza a tu propio ritmo

Free Online Course

Actualización opcional disponible

Resumen

ABOUT THE COURSE:

This course explores how Generative AI is applied to modern computer vision tasks. Unlike existing NPTEL courses, it specifically emphasized on vision-based generative AI models.

It begins with mathematical foundations and classical vision techniques, followed by deep learning architectures. The course then introduces generative learning paradigms including GANs, VAEs, diffusion models, and transformers with a discussion regarding evaluation metrics and training challenges like mode collapse, diffusion noise scheduling, etc.

Moreover, it includes LLM models for vision applications like GPT-4V, LLaMA, PaLM-E, Flamingo, etc. This course is primarily focusing on deep generative learning for computer vision tasks like Image Captioning, VQA, Scene Understanding etc.

It further discusses multimodal generative models and agentic AI systems for automatic image synthesis and reasoning.INTENDED AUDIENCE:

Final/Pre-final year B.Tech/BE, M.Tech/ME, MS, PhD students, Industry professionals, and Faculty members.PREREQUISITES:

Basics of Machine Learning and Computer Vision. Neural Networks for Vision and NLP.INDUSTRY SUPPORT:

Relevant for AI/ML roles in IT companies, startups, research labs, and product-based companies working in generative AI and computer vision domains.

Programa

  • Introducción
  • Panorama de la IA generativa en visión por computadora
    Estructura y objetivos del curso
    Revisión de requisitos previos
  • Fundamentos Matemáticos
  • Probabilidad y estadística para modelos generativos
    Álgebra lineal y técnicas de optimización
    Métodos clásicos en visión por computadora
  • Técnicas de Visión Clásica
  • Detección y extracción de características
    Filtrado y transformación de imágenes
    Segmentación y reconocimiento de objetos
  • Arquitecturas de Aprendizaje Profundo
  • Redes Neuronales Convolucionales (CNNs)
    Redes Neuronales Recurrentes (RNNs) y LSTMs
    Mecanismos de atención y Transformadores
  • Paradigmas de Aprendizaje Generativo
  • Redes Generativas Antagónicas (GANs)
    Arquitectura y funciones de pérdida
    Colapso de modo y métricas de evaluación
    Autoencoders Variacionales (VAEs)
    Representación de espacio latente
    Técnicas de regularización
    Modelos de Difusión
    Procesos de enruido y desenruido
    Métodos de programación de ruido
  • Modelos Generativos Multimodales
  • Panorama y significancia
    Sistemas de IA agénticos para síntesis de imágenes
  • Transformadores y Aplicaciones de Visión
  • Transformadores de Visión (ViT)
    Grandes Modelos de Lenguaje para visión
    GPT-4V, LLaMA, PaLM-E, Flamingo
    Descripción de Imágenes y Respuesta a Preguntas Visuales (VQA)
    Comprensión de escenas y síntesis de imágenes
  • Desafíos de Entrenamiento y Métricas de Evaluación
  • Remedios para sobreajuste y subajuste
    Colapso de modo en GANs
    Aspectos de evaluación para modelos generativos
  • Dominios de Aplicación y Estudios de Caso
  • Descripción de Imágenes y Respuesta a Preguntas Visuales
    Comprensión de Escenas
    Síntesis Automática de Imágenes y Razonamiento
  • Casos de Uso en la Industria y Áreas de Investigación Abierta
  • Aplicaciones en el mundo real
    Tendencias actuales en investigación y desarrollo
  • Conclusión del Curso
  • Resumen de los resultados de aprendizaje clave
    Direcciones futuras y caminos profesionales en IA generativa para CV
  • Tareas y Trabajo de Proyecto
  • Ejercicios semanales y tareas de codificación
    Proyecto de fin de curso: Implementación de un modelo de IA generativa basado en visión
  • Recursos Adicionales
  • Lecturas recomendadas y artículos de investigación
    Foros y comunidades en línea para aprendizaje adicional

Impartido por

Prof. Arijit Sur


Materias

Artificial Intelligence