Qué necesitas saber antes de
comenzar

Inicio 4 June 2026 10:59

Fin 4 June 2026

00 Días
00 Horas
00 Minutos
00 Segundos
course image

Orquestación de IA: De modelos locales a la nube

Domine la orquestación de inteligencia artificial en entornos locales y en la nube: construya flujos de trabajo de ingeniería de prompts, despliegue modelos con Ollama y llamafile, optimice la inferencia en GPU con Rust y diseñe flujos de trabajo rentables utilizando instancias Spot de AWS.
Pragmatic AI Labs via Coursera

Pragmatic AI Labs

2868 Cursos


5 hours

Actualización opcional disponible

Principiante

Avanza a tu propio ritmo

Paid Course

Actualización opcional disponible

Resumen

Learn to orchestrate AI systems across local and cloud environments through hands-on infrastructure setup, model deployment, and workflow integration. You will build a prompt engineering pyramid from basic prompts to chain-of-thought reasoning implemented in Rust, then evaluate six decision factors for choosing between local and cloud models including latency, throughput, cost, and privacy.

The course covers local AI infrastructure in depth:

running Ollama with custom Modelfiles for task-specific assistants, deploying llamafile for zero-dependency portable inference, compiling Rust Candle with CUDA for GPU-accelerated local inference, and optimizing local RAG with caching strategies. You will configure a complete AI workstation with tmux for session management, nvidia-smi and Zenith for GPU monitoring, and NVIDIA GPU optimization.

The final module covers cloud workflows including AWS Spot instances for cost-effective GPU compute, Hugging Face model discovery and download, and GitHub AI models integration. By completing this course, you will be able to set up local AI infrastructure, deploy models across local and cloud environments, and design orchestration workflows that balance cost, privacy, and performance.

Programa

  • Fundamentos de Orquestación
  • Un curso integral que cubre la ingeniería de prompts con razonamiento basado en cadena de pensamiento, tiempos de ejecución de inferencia local (Ollama, llamafile, Candle), configuración de estaciones de trabajo GPU y despliegue en la nube optimizado en costos con instancias AWS Spot.
  • Infraestructura de IA Local
  • Cubre las compensaciones entre modelos locales y en la nube, estrategias de almacenamiento en caché, optimización RAG local, Ollama con Modelfiles personalizados, despliegue portátil de llamafiles y inferencia en Rust acelerada por GPU de Candle.
  • Flujos de Trabajo en Estaciones de Trabajo y en la Nube
  • Cubre la gestión de sesiones tmux, la supervisión de GPU con nvidia-smi y Zenith, la orquestación de estaciones de trabajo locales, el despliegue de instancias AWS Spot, los flujos de trabajo de modelos de IA de Hugging Face y GitHub, y la estructura de proyectos en Rust.
  • Proyecto Final
  • Comparación directa entre Ollama y `apr` ([paiml/aprender](https://github.com/paiml/aprender)) ejecutando Qwen2.5-Coder-1.5B en el mismo conjunto de prompts y en el mismo hardware. Construir un motor de enrutamiento de cadena de pensamiento que seleccione tiempos de ejecución basados en la complejidad de la tarea y los requisitos de validación, con un análisis de costos que abarque estaciones de trabajo locales, instancias Spot y Bedrock.

Impartido por

Alfredo Deza and Noah Gift


Materias

Artificial Intelligence