Qué necesitas saber antes de
comenzar

Inicio 6 June 2026 08:28

Fin 6 June 2026

00 Días
00 Horas
00 Minutos
00 Segundos
course image

Integraciones de IA multimodal y cruzada-modal

Descubre cómo crear aplicaciones de IA que integran perfectamente texto, imágenes y voz utilizando los Servicios de IA de Azure para soluciones multimodales sofisticadas.
Microsoft via Coursera

Microsoft

2874 Cursos


19 hours 55 minutes

Actualización opcional disponible

Not Specified

Avanza a tu propio ritmo

Paid Course

Actualización opcional disponible

Resumen

Learn to build AI that sees, hears, and understands the world in an integrated way. This course takes you beyond single-modality models, teaching you to architect applications that connect different data types like text, images, and speech.

Starting with text-to-image generation, you will progress to integrating various AI components and orchestrating the full power of Azure AI Services to build sophisticated, cross-modal solutions. By the end, you'll be equipped to design the next generation of intelligent, multi-faceted AI applications.

Programa

  • Integración de componentes de IA multimodal
  • Este módulo introduce los conceptos fundamentales de la IA multimodal. Aprenderás los patrones arquitectónicos para combinar diferentes componentes de IA, como modelos de texto e imagen, y avanzarás desde la integración básica hasta la construcción de sistemas complejos que puedan razonar a través de múltiples tipos de datos.
  • Generación de imagen a partir de texto
  • Este módulo ofrece una inmersión profunda en la popular y creativa tarea de generar imágenes a partir de descripciones textuales. Explorarás los modelos que impulsan esta tecnología, como DALL·E, y aprenderás tanto técnicas de escritura básica como avanzada para crear y refinar salidas visuales específicas y de alta calidad.
  • Aplicaciones intermodales con Azure AI Vision
  • Este módulo se centra en la implementación práctica utilizando una herramienta potente y especializada. Aprovecharás las características de Azure AI Vision para construir y optimizar aplicaciones intermodales como la creación de subtítulos de imágenes y la búsqueda visual. Aprenderás cómo este solo servicio puede analizar contenido visual para generar descripciones textuales ricas y extraer texto incrustado (OCR), proporcionando los componentes centrales para soluciones multimodales sofisticadas.
  • Integración avanzada de IA con servicios de Azure
  • Este módulo culminante se basa en tu profunda experiencia en Azure AI Vision. Aprenderás a integrar tus aplicaciones de visión con otros servicios de Azure AI potentes, como Lenguaje y Voz, para crear soluciones integrales de extremo a extremo. El enfoque estará en la orquestación de estos servicios distintos para desarrollar una aplicación sofisticada que resuelva un problema empresarial real, demostrando tu capacidad para diseñar y construir un sistema multimodal completo desde cero.

Impartido por

Microsoft


Materias

Artificial Intelligence