Ce que vous devez savoir avant
Vous commencez

Débute 6 July 2026 01:29

Se termine 6 July 2026

00 Jours

00 Heures

00 Minutes

00 Secondes

S'inscrire

Orchestration IA : des modèles locaux au cloud

Maîtrisez l'orchestration de l'IA dans les environnements locaux et en cloud — construisez des pipelines d'ingénierie de prompts, déployez des modèles avec Ollama et llamafile, optimisez l'inférence GPU en Rust, et concevez des workflows économiques en utilisant les instances Spot d'AWS.

Pragmatic AI Labs via Coursera

5 hours

Amélioration optionnelle disponible

Débutant

Progressez à votre rythme

Paid Course

Amélioration optionnelle disponible

Aperçu

Learn to orchestrate AI systems across local and cloud environments through hands-on infrastructure setup, model deployment, and workflow integration. You will build a prompt engineering pyramid from basic prompts to chain-of-thought reasoning implemented in Rust, then evaluate six decision factors for choosing between local and cloud models including latency, throughput, cost, and privacy.

The course covers local AI infrastructure in depth:

running Ollama with custom Modelfiles for task-specific assistants, deploying llamafile for zero-dependency portable inference, compiling Rust Candle with CUDA for GPU-accelerated local inference, and optimizing local RAG with caching strategies. You will configure a complete AI workstation with tmux for session management, nvidia-smi and Zenith for GPU monitoring, and NVIDIA GPU optimization.

The final module covers cloud workflows including AWS Spot instances for cost-effective GPU compute, Hugging Face model discovery and download, and GitHub AI models integration. By completing this course, you will be able to set up local AI infrastructure, deploy models across local and cloud environments, and design orchestration workflows that balance cost, privacy, and performance.

Programme

Fondamentaux de l'orchestration

Un cours complet couvrant l'ingénierie des invites avec raisonnement en chaîne, les temps d'exécution d'inférence locaux (Ollama, llamafile, Candle), la configuration de stations de travail GPU et le déploiement cloud optimisé en termes de coût avec les instances Spot d'AWS.

Infrastructure IA locale

Couvre les compromis entre les modèles locaux et cloud, les stratégies de mise en cache, l'optimisation locale RAG, Ollama avec des Modelfiles personnalisés, le déploiement portable de llamafile et l'inférence portable Candle accélérée par GPU en Rust.

Flux de travail sur station de travail et cloud

Couvre la gestion des sessions tmux, la surveillance des GPU avec nvidia-smi et Zenith, l'orchestration des stations de travail locales, le déploiement d'instances Spot AWS, les flux de travail des modèles IA de Hugging Face et GitHub, et la structure des projets Rust.

Projet de fin d'études

Comparaison directe entre Ollama et `apr` ([paiml/aprender](https://github.com/paiml/aprender)) tournant Qwen2.5-Coder-1.5B sur la même suite d'invites, même matériel. Construire un moteur de routage de raisonnement en chaîne qui sélectionne les temps d'exécution en fonction de la complexité des tâches et des exigences de validation, avec une analyse des coûts couvrant les stations de travail locales, les instances Spot et Bedrock.

Enseigné par

Alfredo Deza and Noah Gift

Matières

Artificial Intelligence

Ce que vous devez savoir avant Vous commencez

Orchestration IA : des modèles locaux au cloud

5 hours

Débutant

Paid Course

Aperçu

Programme

Enseigné par

Matières

Faire Progresser Votre Carrière dans l'IA de Production

Bioproduction industrielle : des cellules aux produits

Automatiser les processus fiscaux de routine

Construire des agents d'IA multimodaux

Algorithmes mathématiques dans l'intelligence artificielle

Algorithme mathématique dans l'IA

Ce que vous devez savoir avant
Vous commencez