Qué necesitas saber antes de
comenzar

Inicio 12 July 2026 13:02

Fin 12 July 2026

00 Días

00 Horas

00 Minutos

00 Segundos

Registrarse

IA generativa para la visión por computadora

Explore la IA generativa para visión por computadora, cubriendo GANs, VAEs, modelos de difusión, transformers y LLMs como GPT-4V para tareas como generación de descripciones de imágenes, preguntas visuales automatizadas (VQA), y razonamiento multimodal.

NPTEL via Swayam

Not Specified

Actualización opcional disponible

Avanzado

Avanza a tu propio ritmo

Free Online Course

Actualización opcional disponible

Resumen

ABOUT THE COURSE:

This course explores how Generative AI is applied to modern computer vision tasks. Unlike existing NPTEL courses, it specifically emphasized on vision-based generative AI models.

It begins with mathematical foundations and classical vision techniques, followed by deep learning architectures. The course then introduces generative learning paradigms including GANs, VAEs, diffusion models, and transformers with a discussion regarding evaluation metrics and training challenges like mode collapse, diffusion noise scheduling, etc.

Moreover, it includes LLM models for vision applications like GPT-4V, LLaMA, PaLM-E, Flamingo, etc. This course is primarily focusing on deep generative learning for computer vision tasks like Image Captioning, VQA, Scene Understanding etc.

It further discusses multimodal generative models and agentic AI systems for automatic image synthesis and reasoning.INTENDED AUDIENCE:

Final/Pre-final year B.Tech/BE, M.Tech/ME, MS, PhD students, Industry professionals, and Faculty members.PREREQUISITES:

Basics of Machine Learning and Computer Vision. Neural Networks for Vision and NLP.INDUSTRY SUPPORT:

Relevant for AI/ML roles in IT companies, startups, research labs, and product-based companies working in generative AI and computer vision domains.

Programa

Introducción

Panorama de la IA generativa en visión por computadora

Estructura y objetivos del curso

Revisión de requisitos previos

Fundamentos Matemáticos

Probabilidad y estadística para modelos generativos

Álgebra lineal y técnicas de optimización

Métodos clásicos en visión por computadora

Técnicas de Visión Clásica

Detección y extracción de características

Filtrado y transformación de imágenes

Segmentación y reconocimiento de objetos

Arquitecturas de Aprendizaje Profundo

Redes Neuronales Convolucionales (CNNs)

Redes Neuronales Recurrentes (RNNs) y LSTMs

Mecanismos de atención y Transformadores

Paradigmas de Aprendizaje Generativo

Redes Generativas Antagónicas (GANs)

Arquitectura y funciones de pérdida

Colapso de modo y métricas de evaluación

Autoencoders Variacionales (VAEs)

Representación de espacio latente

Técnicas de regularización

Modelos de Difusión

Procesos de enruido y desenruido

Métodos de programación de ruido

Modelos Generativos Multimodales

Panorama y significancia

Sistemas de IA agénticos para síntesis de imágenes

Transformadores y Aplicaciones de Visión

Transformadores de Visión (ViT)

Grandes Modelos de Lenguaje para visión

GPT-4V, LLaMA, PaLM-E, Flamingo

Descripción de Imágenes y Respuesta a Preguntas Visuales (VQA)

Comprensión de escenas y síntesis de imágenes

Desafíos de Entrenamiento y Métricas de Evaluación

Remedios para sobreajuste y subajuste

Colapso de modo en GANs

Aspectos de evaluación para modelos generativos

Dominios de Aplicación y Estudios de Caso

Descripción de Imágenes y Respuesta a Preguntas Visuales

Comprensión de Escenas

Síntesis Automática de Imágenes y Razonamiento

Casos de Uso en la Industria y Áreas de Investigación Abierta

Aplicaciones en el mundo real

Tendencias actuales en investigación y desarrollo

Conclusión del Curso

Resumen de los resultados de aprendizaje clave

Direcciones futuras y caminos profesionales en IA generativa para CV

Tareas y Trabajo de Proyecto

Ejercicios semanales y tareas de codificación

Proyecto de fin de curso: Implementación de un modelo de IA generativa basado en visión

Recursos Adicionales

Lecturas recomendadas y artículos de investigación

Foros y comunidades en línea para aprendizaje adicional

Impartido por

Prof. Arijit Sur

Materias

Artificial Intelligence

Qué necesitas saber antes de comenzar

IA generativa para la visión por computadora

Not Specified

Avanzado

Free Online Course

Resumen

Programa

Impartido por

Materias

Ingeniería de características y almacenes de características para IA y ML

Inteligencia Artificial Práctica para Cazarrecompensas - NahamCon 2024

Transformación de Infraestructura Urbana con Apoyo de IA - Ciudades Inteligentes y Optimización Energética

Gestión de Movilidad en Ciudades Inteligentes: Uso de IoT e IA para el Impacto Ambiental

Una vida de investigación de diseño en la interacción humano-computadora

Instalación de Turbo en MK4 R32 VR6 - Construyendo hacia 500 Caballos de Fuerza en las Ruedas

Qué necesitas saber antes de
comenzar