Ce que vous devez savoir avant
Vous commencez

Débute 7 June 2026 20:42

Se termine 7 June 2026

00 Jours
00 Heures
00 Minutes
00 Secondes
course image

Ingénierie des invites pour les modèles de vision

Maîtrisez les techniques de création de prompts pour les modèles visuels, y compris SAM, OWL-ViT et Stable Diffusion, grâce à des tâches pratiques de génération d'images, de segmentation et de détection d'objets.
DeepLearning.AI via Coursera

DeepLearning.AI

2889 Cours


1 hour 30 minutes

Amélioration optionnelle disponible

Not Specified

Progressez à votre rythme

Paid Course

Amélioration optionnelle disponible

Aperçu

Prompt engineering is used not only in text models but also in vision models. Depending on the vision model, they may use text prompts, but can also work with pixel coordinates, bounding boxes, or segmentation masks.

In this course, you’ll learn to prompt different vision models like Meta’s Segment Anything Model (SAM), a universal image segmentation model, OWL-ViT, a zero-shot object detection model, and Stable Diffusion 2.0, a widely used diffusion model. You’ll also use a fine-tuning technique called DreamBooth to tune a diffusion model to associate a text label with an object of your preference.

In detail, you’ll explore:

1. Image Generation:

Prompt with text and by adjusting hyperparameters like strength, guidance scale, and number of inference steps. 2.

Image Segmentation:

Prompt with positive or negative coordinates, and with bounding box coordinates. 3. Object detection:

Prompt with natural language to produce a bounding box to isolate specific objects within images. 4.

In-painting:

Combine the above techniques to replace objects within an image with generated content. 5. Personalization with Fine-tuning:

Generate custom images based on pictures of people or places that you provide, using a fine-tuning technique called DreamBooth. 6.

Iterating and Experiment Tracking:

Prompting and hyperparameter tuning are iterative processes, and therefore experiment tracking can help to identify the most effective combinations. This course will use Comet, a library to track experiments and optimize visual prompt engineering workflows.

Programme

  • Ingénierie de Prompt pour les Modèles de Vision
  • L'ingénierie de prompt est utilisée non seulement dans les modèles de texte mais aussi dans les modèles de vision. Selon le modèle de vision, ils peuvent utiliser des prompts textuels, mais peuvent également fonctionner avec des coordonnées de pixels, des boîtes englobantes ou des masques de segmentation. Dans ce cours, vous apprendrez à inciter différents modèles de vision comme le Segment Anything Model (SAM) de Meta, un modèle universel de segmentation d'images, OWL-ViT, un modèle de détection d'objets sans aucun apprentissage préalable, et Stable Diffusion 2.0, un modèle de diffusion largement utilisé. Vous utiliserez également une technique d'affinage appelée DreamBooth pour ajuster un modèle de diffusion afin d'associer une étiquette textuelle à un objet de votre choix. En détail, vous explorerez : 1. Génération d'images : Inciter avec du texte et en ajustant des hyperparamètres tels que la force, l'échelle de guidage, et le nombre d'étapes d'inférence. 2. Segmentation d'images : Inciter avec des coordonnées positives ou négatives, et avec des coordonnées de boîtes englobantes. 3. Détection d'objets : Inciter avec le langage naturel pour produire une boîte englobante afin d'isoler des objets spécifiques dans les images. 4. In-crustation : Combiner les techniques ci-dessus pour remplacer des objets dans une image par du contenu généré. 5. Personnalisation avec l'affinage : Générer des images personnalisées basées sur des photos de personnes ou de lieux que vous fournissez, en utilisant une technique d'affinage appelée DreamBooth. 6. Itération et Suivi des Expériences : L'incitation et l'ajustement des hyperparamètres sont des processus itératifs, et le suivi des expériences peut donc aider à identifier les combinaisons les plus efficaces. Ce cours utilisera Comet, une bibliothèque pour suivre les expériences et optimiser les flux de travail d'ingénierie de prompt visuel.

Enseigné par

Abigail Morgan, Jacques Verre, and Caleb Kaiser


Matières

Computer Science