Qué necesitas saber antes de
comenzar

Inicio 23 July 2026 10:19

Fin 23 July 2026

00 Días

00 Horas

00 Minutos

00 Segundos

Registrarse

Ingeniería de Prompts para Modelos de Visión

Domina las técnicas de ingeniería de indicaciones para modelos de visión, incluyendo SAM, OWL-ViT y Stable Diffusion, mediante tareas prácticas de generación de imágenes, segmentación y detección de objetos.

DeepLearning.AI via Coursera

1 hour 30 minutes

Actualización opcional disponible

Not Specified

Avanza a tu propio ritmo

Paid Course

Actualización opcional disponible

Resumen

Prompt engineering is used not only in text models but also in vision models. Depending on the vision model, they may use text prompts, but can also work with pixel coordinates, bounding boxes, or segmentation masks.

In this course, you’ll learn to prompt different vision models like Meta’s Segment Anything Model (SAM), a universal image segmentation model, OWL-ViT, a zero-shot object detection model, and Stable Diffusion 2.0, a widely used diffusion model. You’ll also use a fine-tuning technique called DreamBooth to tune a diffusion model to associate a text label with an object of your preference.

In detail, you’ll explore:

1. Image Generation:

Prompt with text and by adjusting hyperparameters like strength, guidance scale, and number of inference steps. 2.

Image Segmentation:

Prompt with positive or negative coordinates, and with bounding box coordinates. 3. Object detection:

Prompt with natural language to produce a bounding box to isolate specific objects within images. 4.

In-painting:

Combine the above techniques to replace objects within an image with generated content. 5. Personalization with Fine-tuning:

Generate custom images based on pictures of people or places that you provide, using a fine-tuning technique called DreamBooth. 6.

Iterating and Experiment Tracking:

Prompting and hyperparameter tuning are iterative processes, and therefore experiment tracking can help to identify the most effective combinations. This course will use Comet, a library to track experiments and optimize visual prompt engineering workflows.

Programa

Ingeniería de Prompts para Modelos de Visión

La ingeniería de prompts se utiliza no solo en modelos de texto, sino también en modelos de visión. Dependiendo del modelo de visión, pueden usar prompts de texto, pero también pueden trabajar con coordenadas de píxeles, cuadros delimitadores o máscaras de segmentación. En este curso, aprenderás a crear prompts para diferentes modelos de visión como el Segment Anything Model (SAM) de Meta, un modelo universal de segmentación de imágenes, OWL-ViT, un modelo de detección de objetos de cero disparos, y Stable Diffusion 2.0, un modelo de difusión ampliamente utilizado. También emplearás una técnica de ajuste fino llamada DreamBooth para ajustar un modelo de difusión y asociar una etiqueta de texto con un objeto de tu preferencia. En detalle, explorarás: 1. Generación de Imágenes: Crear prompts con texto y ajustando hiperparámetros como la fuerza, escala de guía, y el número de pasos de inferencia. 2. Segmentación de Imágenes: Crear prompts con coordenadas positivas o negativas, y con coordenadas de cuadros delimitadores. 3. Detección de Objetos: Crear prompts con lenguaje natural para producir un cuadro delimitador que aísle objetos específicos dentro de imágenes. 4. Repintado: Combinar las técnicas anteriores para reemplazar objetos dentro de una imagen con contenido generado. 5. Personalización con Ajuste Fino: Generar imágenes personalizadas basadas en fotos de personas o lugares que proporciones, usando una técnica de ajuste fino llamada DreamBooth. 6. Iteración y Seguimiento de Experimentos: La creación de prompts y el ajuste de hiperparámetros son procesos iterativos, por lo que el seguimiento de experimentos puede ayudar a identificar las combinaciones más efectivas. Este curso utilizará Comet, una biblioteca para seguir experimentos y optimizar los flujos de trabajo de la ingeniería de prompts visuales.

Impartido por

Abigail Morgan, Jacques Verre, and Caleb Kaiser

Materias

Computer Science

Qué necesitas saber antes de comenzar

Ingeniería de Prompts para Modelos de Visión

1 hour 30 minutes

Not Specified

Paid Course

Resumen

Programa

Impartido por

Materias

IA para Automatización y Modelado de FP&A

FP&A con IA: Proyecto de Fin de Carrera

Interpretabilidad de los LLM - Generación de Descripciones de Características de SAE - Primavera 2026

CodeCloak: Un método basado en DRL para mitigar la fuga de código por asistentes de código LLM

IA generativa para PLN con PyTorch

Ingeniero de Aprendizaje Automático: Modelos de ML y Aprendizaje Profundo

Qué necesitas saber antes de
comenzar