Ce que vous devez savoir avant
Vous commencez

Débute 1 July 2026 08:54

Se termine 1 July 2026

00 Jours
00 Heures
00 Minutes
00 Secondes
course image

Apprentissage par Renforcement Profond : de la Théorie à la Pratique

Maîtrisez l'apprentissage par renforcement profond depuis l'approximation de fonction jusqu'aux algorithmes modernes tels que PPO, DDPG et SAC, en implémentant des agents stables pour des environnements de haute dimension, y compris les jeux et la robotique.
University of Colorado Boulder via Coursera

University of Colorado Boulder

40 Cours


L'Université de Colorado Boulder, souvent appelée CU Boulder, propose une grande variété de programmes et de cours éducatifs, à la fois en personne et en ligne. Les étudiants peuvent choisir parmi diverses filières d'études, notamment des cours d'arts, de sciences, d'ingénierie, de commerce et plus encore.

Cours en ligne de l'Université de Colorado Boulder

L'un des principaux avantages de la CU Boulder est la possibilité de suivre des cours en ligne. C'est une formidable opportunité pour les étudiants qui veulent une éducation de qualité mais préfèrent avoir de la flexibilité dans leur emploi du temps. Les cours en ligne de la CU Boulder donnent accès à des professeurs hautement qualifiés et aux matériels les plus récents.

Cours d'été à l'Université de Colorado Boulder

L'été est un excellent moment pour explorer de nouveaux sujets et élargir ses connaissances. L'Université de Colorado Boulder propose une variété de cours d'été en ligne et en personne. C'est une excellente opportunité pour les étudiants de passer leur été utilement en étudiant des sujets qu'ils aiment.

Meilleurs cours de la CU Boulder pour les étudiants

La CU Boulder offre non seulement une grande variété de programmes, mais aussi une éducation de haute qualité. Les étudiants peuvent choisir parmi une variété de cours, du niveau basique au niveau avancé, pour développer leurs compétences et leurs centres d'intérêt. L'université utilise activement des approches innovantes dans l'enseignement, comme l'éducation par l'IA, qui aide les étudiants à acquérir des connaissances à jour.

Cours à la CU Boulder : Plus avec des leçons gratuites

Grâce à une variété de cours gratuits à la CU Boulder, les étudiants peuvent élargir leurs connaissances dans de nombreux domaines. Ces cours sont disponibles pour les étudiants débutants et avancés, permettant à chacun de trouver une option de formation adaptée à ses intérêts.

Avantages de suivre des cours en ligne à l'Université de Colorado Boulder

L'Université de Colorado Boulder offre aux étudiants une opportunité unique d'étudier à travers des cours en ligne, qui présentent un certain nombre d'avantages importants.

Premièrement, l'avantage d'étudier les cours en ligne à l'Université de Colorado Boulder est la flexibilité de l'horaire. Les étudiants peuvent choisir leur propre moment pour étudier le matériel et regarder les cours, ce qui leur facilite l'équilibre entre leurs études et d'autres responsabilités telles que le travail ou les engagements familiaux. Cette flexibilité rend l'éducation plus accessible à un plus grand nombre de personnes.

Deuxièmement, les cours de l'Université de Colorado Boulder offrent aux étudiants l'opportunité d'étudier un matériel unique présenté par des enseignants expérimentés. Grâce à l'accès à des experts dans divers domaines de la connaissance, les étudiants peuvent acquérir des connaissances et des compétences pertinentes qui seront utiles dans le monde moderne.

Le troisième avantage de suivre les cours en ligne de la CU Boulder est l'occasion de se connecter et de collaborer avec d'autres étudiants de différents pays et cultures. Cela contribue à enrichir l'expérience éducative en permettant aux étudiants d'être exposés à différents points de vue et d'élargir leurs horizons.

En outre, les cours en ligne de l'Université de Colorado Boulder offrent généralement une variété de matériel d'apprentissage interactif, rendant le processus d'apprentissage plus amusant et efficace. Les étudiants peuvent apprendre grâce à des conférences vidéo, des tests, des forums et d'autres méthodes innovantes qui stimulent l'apprentissage.

Ainsi, suivre des cours en ligne de l'Université de Colorado Boulder offre aux étudiants de nombreux avantages, y compris une programmation flexible, l'accès à des experts, la communication internationale, et une approche éducative interactive. C'est une excellente occasion pour les étudiants de recevoir une éducation de qualité, d'élargir leurs connaissances et compétences, et de se préparer aux défis du monde moderne.

Conclusion

L'Université de Colorado Boulder est un endroit où les étudiants peuvent recevoir une éducation de qualité avec une variété de cours et de programmes au choix. Que vous cherchiez une formation en ligne ou en personne, des cours d'été ou des programmes gratuits, la CU Boulder offre de nombreuses opportunités pour le développement et l'apprentissage!

6 weeks, 2 hours a week

Amélioration optionnelle disponible

Intermédiaire

Progressez à votre rythme

Paid Course

Amélioration optionnelle disponible

Aperçu

How can reinforcement learning scale beyond small tabular problems to high-dimensional environments such as games, robotics, and autonomous decision-making? This course introduces deep reinforcement learning, where reinforcement-learning algorithms are combined with neural-network-based function approximation.

Learners begin by studying why tabular methods break down in large or continuous state spaces and how value functions, action-value functions, and policies can be represented by parameterized models. The course then develops value-based deep reinforcement learning methods, including fitted value iteration, Deep Q-Networks, replay buffers, target networks, Double DQN, dueling networks, and prioritized experience replay.

Learners also study direct policy optimization through policy-gradient methods such as REINFORCE, as well as actor–critic methods that combine policy optimization with value estimation. The course introduces selected modern deep RL algorithms, such as PPO, DDPG, and SAC, with emphasis on implementation, stability, diagnosis, and empirical evaluation.

By the end of the course, learners will be able to implement deep reinforcement-learning agents, diagnose common sources of instability, evaluate learned behavior using suitable experimental protocols, and report results in a reproducible way. This course can be taken for academic credit as part of CU Boulder’s Masters of Science in Computer Science (MS-CS) and Master of Science in Artificial Intelligence (MS-AI) degrees offered on the Coursera platform.

These fully accredited graduate degrees offer targeted courses, short 8-week sessions, and pay-as-you-go tuition. Admission is based on performance in three preliminary courses, not academic history.

CU degrees on Coursera are ideal for recent graduates or working professionals. Learn more:

MS in Artificial Intelligence:

https:

//www.coursera.org/degrees/ms-artificial-intelligence-boulder MS in Computer Science:

https:

//coursera.org/degrees/ms-computer-science-boulder

Programme

  • Approximation de fonctions pour l'apprentissage par renforcement
  • Ce module présente l'approximation de fonctions comme le point de transition de l'apprentissage par renforcement tabulaire à l'apprentissage par renforcement profond. Dans le cours 1, nous avons représenté les valeurs explicitement en utilisant des tables : V(s), Q(s, a). Cela fonctionne lorsque les espaces d'état et d'action sont suffisamment petits pour être énumérés. Mais de nombreux problèmes d'apprentissage par renforcement ont des observations larges, continues, à haute dimension, ou ressemblant à des images. Dans de tels contextes, les tables ne suffisent pas. Le cours 2 remplace les tables par des fonctions paramétrées : Vθ(s), Qθ(s, a), πθ(a | s). Le vecteur de paramètres θ peut représenter un modèle linéaire, un réseau de neurones ou une autre classe de fonctions différentiables. La question centrale de ce module est : comment apprendre des fonctions de valeur quand les tables sont trop grandes ? Le module explique également pourquoi le deep RL n'est pas simplement de l'apprentissage supervisé appliqué aux données RL. Les cibles sont bruyantes, échantillonnées, dépendantes de la politique, et souvent mouvantes à mesure que les paramètres changent. Ces difficultés mènent à la triade mortelle : approximation de fonctions, échantillonnement, et apprentissage hors-politique. Le module se termine par une itération de valeurs adaptée comme un pont de l'itération de valeur tabulaire à l'apprentissage Q profond.
  • Deep Q-Learning et Apprentissage Profond Basé sur la Valeur
  • Ce module développe l'apprentissage par renforcement profond basé sur la valeur en tant que régression par échantillonnage. Dans le module précédent, nous avons remplacé les fonctions de valeur tabulaires par des fonctions paramétrées : Vθ(s), Qθ(s, a), πθ(a | s). Nous avons également vu que l'approximation de fonctions modifie le problème d'apprentissage : les valeurs ne sont plus stockées indépendamment, les cibles peuvent changer à mesure que les paramètres changent, et les mises à jour par échantillonnage peuvent devenir instables. Ce module applique ces idées à l'apprentissage des valeurs d'action profondes. Nous commençons par l'itération de valeurs ajustées, qui transforme les mises à jour de Bellman en problèmes de régression. Nous étudions ensuite les réseaux Q profonds, ou DQN, où un réseau de neurones représente Qθ(s, a). DQN combine les cibles d'apprentissage Q avec deux stabilisateurs importants : les tampons de relecture et les réseaux cibles. Enfin, nous étudions les variantes courantes de DQN : Double DQN, réseaux duel, et relecture prioritaire. L'objectif est de comprendre DQN non pas comme une recette de deep learning mystérieuse, mais comme un apprentissage Q plus approximation de fonctions, cibles échantillonnées, relecture, et stabilisation.
  • Gradients de Politique et REINFORCE
  • Ce module introduit les méthodes de gradients de politique, une famille d'algorithmes d'apprentissage par renforcement qui optimisent directement une politique paramétrée plutôt que de dériver le comportement d'une fonction de valeur apprise. À partir de la motivation pour l'apprentissage direct de la politique, le module développe l'objectif de gradient de politique, l'astuce de la fonction de score qui rend cet objectif différentiable à partir de l'expérience échantillonnée, et REINFORCE, l'algorithme fondamental de gradient de politique Monte Carlo. Le module introduit ensuite des bases comme une technique pratique de réduction de variance et se termine par la motivation des méthodes acteur-critic comme l'étape naturelle suivante une fois qu'une base apprise est introduite.
  • Méthodes Acteur-Critic
  • REINFORCE met à jour la politique directement à partir des retours échantillonnés Monte Carlo, mais ces retours sont bruyants - la même politique peut produire des résultats très différents d'un épisode à l'autre. Ce module introduit les méthodes acteur-critic, qui maîtrisent cette variance en apprenant un deuxième composant, le critique, qui estime la qualité d'un état ou d'une action et renvoie cette estimation dans la mise à jour de la politique comme base. Les apprenants verront comment soustraire une fonction de valeur apprise du retour produit un signal d'avantage, comment ce signal se généralise de l'erreur TD à un pas à l'Estimateur d'Avantage Généralisé à plusieurs étapes, et comment l'acteur et le critique sont conjointement entraînés via des pertes de politique et de valeur séparées. Le module se termine en suivant la ligne conceptuelle des méthodes de base acteur-critic à PPO, motivant pourquoi contrôler la taille des mises à jour de politique importe pour un apprentissage stable.
  • Apprentissage par Renforcement Profond Moderne : PPO, DDPG, et SAC
  • Ce module passe en revue les algorithmes modernes d'apprentissage par renforcement profond à travers le prisme de la stabilité, de l'exploration, et du contrôle continu. Dans le module précédent, nous avons étudié les méthodes de gradients de politique et acteur-critic. Les mises à jour de gradients de politique classiques peuvent être fragiles. Si la politique change trop après une mise à jour, la nouvelle politique peut être bien pire que l'ancienne, et les données collectées sous l'ancienne politique peuvent ne plus être fiables pour mettre à jour la nouvelle. Ce module étudie trois grandes idées algorithmiques. D'abord, nous étudions les mises à jour de politique conservatrices à travers TRPO et PPO. L'idée principale est d'améliorer la politique tout en évitant les changements de politique excessifs. PPO implémente cette idée en utilisant un objectif de substitut simple limité. Deuxièmement, nous étudions DDPG, une méthode acteur-critic déterministe pour les problèmes de contrôle continu. Troisièmement, nous étudions SAC, une méthode acteur-critic régularisée par entropie qui encourage l'exploration et souvent améliore la robustesse.
  • Implémentation Pratique de l'Apprentissage par Renforcement Profond
  • Ce module transforme les algorithmes d'apprentissage par renforcement profond en modèles d'implémentation. Les modules précédents ont introduit les principales idées algorithmiques : approximation de fonctions, DQN, gradients de politique, méthodes acteur-critic, PPO, DDPG, et SAC. Ce module demande comment ces idées deviennent un code fonctionnel. Une implémentation d'apprentissage par renforcement profond n'est pas juste une boucle d'entraînement de réseau de neurones. En apprentissage supervisé, les données sont généralement données dans un ensemble de données fixe. En apprentissage par renforcement, les données sont générées par un agent interagissant avec un environnement. Cela signifie que l'implémentation doit gérer l'interaction environnementale, l'exploration, les modèles de réseau de neurones, les optimiseurs, les tampons de relecture ou de trajectoire, les réseaux cibles, la journalisation, l'évaluation, et la reproductibilité.

Enseigné par

Ashutosh Trivedi


Matières

Computer Science