Qué necesitas saber antes de
comenzar

Inicio 7 June 2026 20:42

Fin 7 June 2026

00 Días
00 Horas
00 Minutos
00 Segundos
course image

Generación de Prompts Multimodales Grandes con Gemini

Domina técnicas avanzadas de ingeniería de prompts para las capacidades multimodales de la inteligencia artificial de Gemini a través de texto, imágenes y videos para crear aplicaciones inteligentes con integración de datos en tiempo real.
DeepLearning.AI via Coursera

DeepLearning.AI

2889 Cursos


1 hour 30 minutes

Actualización opcional disponible

Not Specified

Avanza a tu propio ritmo

Paid Course

Actualización opcional disponible

Resumen

Multimodal models like Gemini are pushing the boundaries of what’s possible by unifying traditionally siloed data modalities. With Gemini, you can build applications that seamlessly understand and reason across text, images, and videos, enabling a new class of intelligent systems.

For example, building a virtual interior designer that can analyze a user’s room images, understand their style preferences from a text description, and generate personalized design recommendations. Or creating a smart document processing pipeline that can extract structured data from complex PDFs, answer questions based on the content, and generate human-like summaries.

You’ll learn prompt engineering techniques to guide Gemini’s behavior and optimize its performance for diverse use cases, from creative story generation to analytical report writing. And you’ll discover how to integrate Gemini with external APIs and databases using function calling, with the ability to infuse your applications with real-time data and dynamic content.

What you’ll learn, in detail:

1. Introduction to Gemini Models:

Explore the Gemini model family, and understand the key differences and use cases for Gemini Nano, Pro, Flash, and Ultra.

Understand how to select optimal models based on capability, latency, and cost considerations. 2. Multimodal Prompting and Parameter Control:

Learn advanced techniques for structuring effective text-image-video prompts to elicit desired model behavior.

Fine-tune key parameters like temperature, top_p, top_k to control model creativity vs determinism. 3. Best Practices for Multimodal Prompting:

Get experience with prompt engineering for Gemini multimodal models, and best practices around role assignment, task decomposition, and formatting.

Analyze the impact of prompt-image ordering on model performance for different objectives. 4. Creating Use Cases with Images:

Build engaging multimodal applications like interior design assistants and receipt itemization tools.

Leverage Gemini’s cross-modal reasoning capabilities to analyze relationships between entities across multiple images. 5. Developing Use Cases with Videos:

Implement “needle in the haystack” semantic video search powered by Gemini’s large context window.

Explore techniques for long-form video QA and content summarization. 6. Integrating Real-Time Data with Function Calling:

Extend Gemini with external knowledge and live data via function calling and API integration.

Combine Gemini’s Natural Language Understanding (NLU) capabilities with APIs for up-to-date facts and interactive services. Through this course, you’ll become well-versed in Gemini’s capabilities, how to maximize them in different use cases, and a portfolio of practical techniques for architecting advanced multimodal AI applications.

Note that due to technical requirements, this course features downloadable-only notebooks on the learning platform. You are free to download, review, and run these notebooks on your own.

Programa

  • Modelos Multimodales Avanzados con Gemini
  • Los modelos multimodales como Gemini están llevando los límites de lo posible al unificar modalidades de datos tradicionalmente aisladas. Con Gemini, puedes desarrollar aplicaciones que comprendan y razonen sin problemas a través de texto, imágenes y videos, habilitando una nueva clase de sistemas inteligentes. Por ejemplo, crear un diseñador de interiores virtual que pueda analizar imágenes de la habitación de un usuario, comprender sus preferencias de estilo a partir de una descripción de texto y generar recomendaciones de diseño personalizadas. O crear una canalización de procesamiento de documentos inteligente que pueda extraer datos estructurados de PDFs complejos, responder preguntas basadas en el contenido y generar resúmenes similares a los de un humano. Aprenderás técnicas de ingeniería de prompts para guiar el comportamiento de Gemini y optimizar su rendimiento para diversos casos de uso, desde la generación creativa de historias hasta la redacción de informes analíticos. Y descubrirás cómo integrar Gemini con APIs externas y bases de datos mediante llamada a funciones, con la capacidad de infundir tus aplicaciones con datos en tiempo real y contenido dinámico. Lo que aprenderás, en detalle: 1. Introducción a los Modelos Gemini: Explora la familia de modelos Gemini y comprende las diferencias clave y casos de uso para Gemini Nano, Pro, Flash y Ultra. Entiende cómo seleccionar modelos óptimos en base a consideraciones de capacidad, latencia y costo. 2. Prompting Multimodal y Control de Parámetros: Aprende técnicas avanzadas para estructurar prompts efectivos de texto-imagen-video para obtener el comportamiento deseado del modelo. Ajusta parámetros clave como temperatura, top_p, top_k para controlar la creatividad vs el determinismo del modelo. 3. Mejores Prácticas para el Prompting Multimodal: Gana experiencia con la ingeniería de prompts para modelos multimodales de Gemini y mejores prácticas sobre asignación de roles, descomposición de tareas y formato. Analiza el impacto del ordenamiento de prompts-imágenes en el rendimiento del modelo para diferentes objetivos. 4. Creación de Casos de Uso con Imágenes: Desarrolla aplicaciones multimodales atractivas como asistentes de diseño de interiores y herramientas de itemización de recibos. Aprovecha las capacidades de razonamiento cruzado de modalidades de Gemini para analizar las relaciones entre entidades a través de múltiples imágenes. 5. Desarrollo de Casos de Uso con Videos: Implementa búsquedas semánticas de video "aguja en un pajar" impulsadas por la gran ventana de contexto de Gemini. Explora técnicas para preguntas y respuestas de video de larga duración y resumen de contenido. 6. Integración de Datos en Tiempo Real con Llamada a Funciones: Amplía Gemini con conocimiento externo y datos en vivo a través de la llamada a funciones e integración de API. Combina las capacidades de Comprensión del Lenguaje Natural (NLU) de Gemini con APIs para obtener hechos actualizados y servicios interactivos. A lo largo de este curso, te familiarizarás con las capacidades de Gemini, cómo maximizarla en diferentes casos de uso, y una cartera de técnicas prácticas para diseñar aplicaciones avanzadas de IA multimodal. Ten en cuenta que, debido a requisitos técnicos, este curso presenta cuadernos descargables únicamente en la plataforma de aprendizaje. Eres libre de descargar, revisar y ejecutar estos cuadernos por tu cuenta.

Impartido por

Erwin Huizenga


Materias

Computer Science