Ce que vous devez savoir avant
Vous commencez

Débute 21 July 2026 10:52

Se termine 21 July 2026

00 Jours

00 Heures

00 Minutes

00 Secondes

S'inscrire

Apprentissage par Renforcement Profond : de la Théorie à la Pratique

Maîtrisez l'apprentissage par renforcement profond depuis l'approximation de fonction jusqu'aux algorithmes modernes tels que PPO, DDPG et SAC, en implémentant des agents stables pour des environnements de haute dimension, y compris les jeux et la robotique.

University of Colorado Boulder via Coursera

6 weeks, 2 hours a week

Amélioration optionnelle disponible

Intermédiaire

Progressez à votre rythme

Paid Course

Amélioration optionnelle disponible

Aperçu

How can reinforcement learning scale beyond small tabular problems to high-dimensional environments such as games, robotics, and autonomous decision-making? This course introduces deep reinforcement learning, where reinforcement-learning algorithms are combined with neural-network-based function approximation.

Learners begin by studying why tabular methods break down in large or continuous state spaces and how value functions, action-value functions, and policies can be represented by parameterized models. The course then develops value-based deep reinforcement learning methods, including fitted value iteration, Deep Q-Networks, replay buffers, target networks, Double DQN, dueling networks, and prioritized experience replay.

Learners also study direct policy optimization through policy-gradient methods such as REINFORCE, as well as actor–critic methods that combine policy optimization with value estimation. The course introduces selected modern deep RL algorithms, such as PPO, DDPG, and SAC, with emphasis on implementation, stability, diagnosis, and empirical evaluation.

By the end of the course, learners will be able to implement deep reinforcement-learning agents, diagnose common sources of instability, evaluate learned behavior using suitable experimental protocols, and report results in a reproducible way. This course can be taken for academic credit as part of CU Boulder’s Masters of Science in Computer Science (MS-CS) and Master of Science in Artificial Intelligence (MS-AI) degrees offered on the Coursera platform.

These fully accredited graduate degrees offer targeted courses, short 8-week sessions, and pay-as-you-go tuition. Admission is based on performance in three preliminary courses, not academic history.

CU degrees on Coursera are ideal for recent graduates or working professionals. Learn more:

MS in Artificial Intelligence:

https:

//www.coursera.org/degrees/ms-artificial-intelligence-boulder MS in Computer Science:

https:

//coursera.org/degrees/ms-computer-science-boulder

Programme

Approximation de fonctions pour l'apprentissage par renforcement

Ce module présente l'approximation de fonctions comme le point de transition de l'apprentissage par renforcement tabulaire à l'apprentissage par renforcement profond. Dans le cours 1, nous avons représenté les valeurs explicitement en utilisant des tables : V(s), Q(s, a). Cela fonctionne lorsque les espaces d'état et d'action sont suffisamment petits pour être énumérés. Mais de nombreux problèmes d'apprentissage par renforcement ont des observations larges, continues, à haute dimension, ou ressemblant à des images. Dans de tels contextes, les tables ne suffisent pas. Le cours 2 remplace les tables par des fonctions paramétrées : Vθ(s), Qθ(s, a), πθ(a | s). Le vecteur de paramètres θ peut représenter un modèle linéaire, un réseau de neurones ou une autre classe de fonctions différentiables. La question centrale de ce module est : comment apprendre des fonctions de valeur quand les tables sont trop grandes ? Le module explique également pourquoi le deep RL n'est pas simplement de l'apprentissage supervisé appliqué aux données RL. Les cibles sont bruyantes, échantillonnées, dépendantes de la politique, et souvent mouvantes à mesure que les paramètres changent. Ces difficultés mènent à la triade mortelle : approximation de fonctions, échantillonnement, et apprentissage hors-politique. Le module se termine par une itération de valeurs adaptée comme un pont de l'itération de valeur tabulaire à l'apprentissage Q profond.

Deep Q-Learning et Apprentissage Profond Basé sur la Valeur

Ce module développe l'apprentissage par renforcement profond basé sur la valeur en tant que régression par échantillonnage. Dans le module précédent, nous avons remplacé les fonctions de valeur tabulaires par des fonctions paramétrées : Vθ(s), Qθ(s, a), πθ(a | s). Nous avons également vu que l'approximation de fonctions modifie le problème d'apprentissage : les valeurs ne sont plus stockées indépendamment, les cibles peuvent changer à mesure que les paramètres changent, et les mises à jour par échantillonnage peuvent devenir instables. Ce module applique ces idées à l'apprentissage des valeurs d'action profondes. Nous commençons par l'itération de valeurs ajustées, qui transforme les mises à jour de Bellman en problèmes de régression. Nous étudions ensuite les réseaux Q profonds, ou DQN, où un réseau de neurones représente Qθ(s, a). DQN combine les cibles d'apprentissage Q avec deux stabilisateurs importants : les tampons de relecture et les réseaux cibles. Enfin, nous étudions les variantes courantes de DQN : Double DQN, réseaux duel, et relecture prioritaire. L'objectif est de comprendre DQN non pas comme une recette de deep learning mystérieuse, mais comme un apprentissage Q plus approximation de fonctions, cibles échantillonnées, relecture, et stabilisation.

Gradients de Politique et REINFORCE

Ce module introduit les méthodes de gradients de politique, une famille d'algorithmes d'apprentissage par renforcement qui optimisent directement une politique paramétrée plutôt que de dériver le comportement d'une fonction de valeur apprise. À partir de la motivation pour l'apprentissage direct de la politique, le module développe l'objectif de gradient de politique, l'astuce de la fonction de score qui rend cet objectif différentiable à partir de l'expérience échantillonnée, et REINFORCE, l'algorithme fondamental de gradient de politique Monte Carlo. Le module introduit ensuite des bases comme une technique pratique de réduction de variance et se termine par la motivation des méthodes acteur-critic comme l'étape naturelle suivante une fois qu'une base apprise est introduite.

Méthodes Acteur-Critic

REINFORCE met à jour la politique directement à partir des retours échantillonnés Monte Carlo, mais ces retours sont bruyants - la même politique peut produire des résultats très différents d'un épisode à l'autre. Ce module introduit les méthodes acteur-critic, qui maîtrisent cette variance en apprenant un deuxième composant, le critique, qui estime la qualité d'un état ou d'une action et renvoie cette estimation dans la mise à jour de la politique comme base. Les apprenants verront comment soustraire une fonction de valeur apprise du retour produit un signal d'avantage, comment ce signal se généralise de l'erreur TD à un pas à l'Estimateur d'Avantage Généralisé à plusieurs étapes, et comment l'acteur et le critique sont conjointement entraînés via des pertes de politique et de valeur séparées. Le module se termine en suivant la ligne conceptuelle des méthodes de base acteur-critic à PPO, motivant pourquoi contrôler la taille des mises à jour de politique importe pour un apprentissage stable.

Apprentissage par Renforcement Profond Moderne : PPO, DDPG, et SAC

Ce module passe en revue les algorithmes modernes d'apprentissage par renforcement profond à travers le prisme de la stabilité, de l'exploration, et du contrôle continu. Dans le module précédent, nous avons étudié les méthodes de gradients de politique et acteur-critic. Les mises à jour de gradients de politique classiques peuvent être fragiles. Si la politique change trop après une mise à jour, la nouvelle politique peut être bien pire que l'ancienne, et les données collectées sous l'ancienne politique peuvent ne plus être fiables pour mettre à jour la nouvelle. Ce module étudie trois grandes idées algorithmiques. D'abord, nous étudions les mises à jour de politique conservatrices à travers TRPO et PPO. L'idée principale est d'améliorer la politique tout en évitant les changements de politique excessifs. PPO implémente cette idée en utilisant un objectif de substitut simple limité. Deuxièmement, nous étudions DDPG, une méthode acteur-critic déterministe pour les problèmes de contrôle continu. Troisièmement, nous étudions SAC, une méthode acteur-critic régularisée par entropie qui encourage l'exploration et souvent améliore la robustesse.

Implémentation Pratique de l'Apprentissage par Renforcement Profond

Ce module transforme les algorithmes d'apprentissage par renforcement profond en modèles d'implémentation. Les modules précédents ont introduit les principales idées algorithmiques : approximation de fonctions, DQN, gradients de politique, méthodes acteur-critic, PPO, DDPG, et SAC. Ce module demande comment ces idées deviennent un code fonctionnel. Une implémentation d'apprentissage par renforcement profond n'est pas juste une boucle d'entraînement de réseau de neurones. En apprentissage supervisé, les données sont généralement données dans un ensemble de données fixe. En apprentissage par renforcement, les données sont générées par un agent interagissant avec un environnement. Cela signifie que l'implémentation doit gérer l'interaction environnementale, l'exploration, les modèles de réseau de neurones, les optimiseurs, les tampons de relecture ou de trajectoire, les réseaux cibles, la journalisation, l'évaluation, et la reproductibilité.

Enseigné par

Ashutosh Trivedi

Matières

Computer Science

Ce que vous devez savoir avant
Vous commencez

Apprentissage par Renforcement Profond : de la Théorie à la Pratique

Cours en ligne de l'Université de Colorado Boulder

Cours d'été à l'Université de Colorado Boulder

Meilleurs cours de la CU Boulder pour les étudiants

Cours à la CU Boulder : Plus avec des leçons gratuites

Avantages de suivre des cours en ligne à l'Université de Colorado Boulder

Conclusion

6 weeks, 2 hours a week

Intermédiaire

Paid Course

Aperçu

Programme

Enseigné par

Matières

Ce que vous devez savoir avant Vous commencez

Apprentissage par Renforcement Profond : de la Théorie à la Pratique

Cours en ligne de l'Université de Colorado Boulder

Cours d'été à l'Université de Colorado Boulder

Meilleurs cours de la CU Boulder pour les étudiants

Cours à la CU Boulder : Plus avec des leçons gratuites

Avantages de suivre des cours en ligne à l'Université de Colorado Boulder

Conclusion

6 weeks, 2 hours a week

Intermédiaire

Paid Course

Aperçu

Programme

Enseigné par

Matières

IA pour l'automatisation et la modélisation de la FP&A (planification financière et analyse)

FP&A avec IA : Projet de Fin d'Études

IA générative pour le TALN avec PyTorch

Ingénieur en apprentissage automatique : Modèles d'apprentissage automatique et profond

Préparation des données et apprentissage automatique appliqué

Fondations de l'apprentissage par renforcement

Ce que vous devez savoir avant
Vous commencez