Qué necesitas saber antes de
comenzar

Inicio 7 June 2026 20:41

Fin 7 June 2026

00 Días
00 Horas
00 Minutos
00 Segundos
course image

Ingeniería de Prompts para Modelos de Visión

Domina las técnicas de ingeniería de indicaciones para modelos de visión, incluyendo SAM, OWL-ViT y Stable Diffusion, mediante tareas prácticas de generación de imágenes, segmentación y detección de objetos.
DeepLearning.AI via Coursera

DeepLearning.AI

2889 Cursos


1 hour 30 minutes

Actualización opcional disponible

Not Specified

Avanza a tu propio ritmo

Paid Course

Actualización opcional disponible

Resumen

Prompt engineering is used not only in text models but also in vision models. Depending on the vision model, they may use text prompts, but can also work with pixel coordinates, bounding boxes, or segmentation masks.

In this course, you’ll learn to prompt different vision models like Meta’s Segment Anything Model (SAM), a universal image segmentation model, OWL-ViT, a zero-shot object detection model, and Stable Diffusion 2.0, a widely used diffusion model. You’ll also use a fine-tuning technique called DreamBooth to tune a diffusion model to associate a text label with an object of your preference.

In detail, you’ll explore:

1. Image Generation:

Prompt with text and by adjusting hyperparameters like strength, guidance scale, and number of inference steps. 2.

Image Segmentation:

Prompt with positive or negative coordinates, and with bounding box coordinates. 3. Object detection:

Prompt with natural language to produce a bounding box to isolate specific objects within images. 4.

In-painting:

Combine the above techniques to replace objects within an image with generated content. 5. Personalization with Fine-tuning:

Generate custom images based on pictures of people or places that you provide, using a fine-tuning technique called DreamBooth. 6.

Iterating and Experiment Tracking:

Prompting and hyperparameter tuning are iterative processes, and therefore experiment tracking can help to identify the most effective combinations. This course will use Comet, a library to track experiments and optimize visual prompt engineering workflows.

Programa

  • Ingeniería de Prompts para Modelos de Visión
  • La ingeniería de prompts se utiliza no solo en modelos de texto, sino también en modelos de visión. Dependiendo del modelo de visión, pueden usar prompts de texto, pero también pueden trabajar con coordenadas de píxeles, cuadros delimitadores o máscaras de segmentación. En este curso, aprenderás a crear prompts para diferentes modelos de visión como el Segment Anything Model (SAM) de Meta, un modelo universal de segmentación de imágenes, OWL-ViT, un modelo de detección de objetos de cero disparos, y Stable Diffusion 2.0, un modelo de difusión ampliamente utilizado. También emplearás una técnica de ajuste fino llamada DreamBooth para ajustar un modelo de difusión y asociar una etiqueta de texto con un objeto de tu preferencia. En detalle, explorarás: 1. Generación de Imágenes: Crear prompts con texto y ajustando hiperparámetros como la fuerza, escala de guía, y el número de pasos de inferencia. 2. Segmentación de Imágenes: Crear prompts con coordenadas positivas o negativas, y con coordenadas de cuadros delimitadores. 3. Detección de Objetos: Crear prompts con lenguaje natural para producir un cuadro delimitador que aísle objetos específicos dentro de imágenes. 4. Repintado: Combinar las técnicas anteriores para reemplazar objetos dentro de una imagen con contenido generado. 5. Personalización con Ajuste Fino: Generar imágenes personalizadas basadas en fotos de personas o lugares que proporciones, usando una técnica de ajuste fino llamada DreamBooth. 6. Iteración y Seguimiento de Experimentos: La creación de prompts y el ajuste de hiperparámetros son procesos iterativos, por lo que el seguimiento de experimentos puede ayudar a identificar las combinaciones más efectivas. Este curso utilizará Comet, una biblioteca para seguir experimentos y optimizar los flujos de trabajo de la ingeniería de prompts visuales.

Impartido por

Abigail Morgan, Jacques Verre, and Caleb Kaiser


Materias

Computer Science