Ce que vous devez savoir avant
Vous commencez

Débute 22 July 2026 19:08

Se termine 22 July 2026

00 Jours

00 Heures

00 Minutes

00 Secondes

S'inscrire

Maîtriser les algorithmes classiques d'apprentissage par renforcement

Explorez les fondements mathématiques de l'apprentissage par renforcement, en couvrant les processus de décision de Markov, la programmation dynamique, l'apprentissage Q et SARSA pour résoudre des problèmes de prise de décision finie en utilisant des méthodes tabulaires.

University of Colorado Boulder via Coursera

5 weeks, 3 hours a week

Amélioration optionnelle disponible

Intermédiaire

Progressez à votre rythme

Paid Course

Amélioration optionnelle disponible

Aperçu

How can an agent learn to make good decisions through repeated interaction with an uncertain environment? This course introduces the mathematical and algorithmic foundations of classical reinforcement learning, with an emphasis on finite Markov decision processes and tabular methods.

The course begins with the simplest settings in which the central ideas are clearest:

deterministic decision processes, discounted rewards, and Bellman optimality equations. It then introduces stochasticity through Markov chains and Markov decision processes, where learners study policies, value functions, expected discounted reward, and dynamic programming.

With this foundation in place, the course turns to planning methods for known models, including value iteration, policy iteration, and linear programming formulations. The second half of the course studies reinforcement learning when the model is unknown and the agent must learn from sampled experience.

Topics include multi-armed bandits, exploration and exploitation, Monte Carlo methods, temporal-difference learning, SARSA, Q-learning, and convergence principles. The course ends with a final assessment in which learners solve the same finite MDP from both model-based planning and model-free learning perspectives.

By the end of the course, learners will be able to formulate finite decision-making problems as Markov decision processes, solve them using classical planning algorithms, and implement tabular reinforcement-learning algorithms from sampled data. This course provides the foundation for later study of deep reinforcement learning, reward programming, and trustworthy AI systems.

This course can be taken for academic credit as part of CU Boulder’s Masters of Science in Computer Science (MS-CS) and Master of Science in Artificial Intelligence (MS-AI) degrees offered on the Coursera platform. These fully accredited graduate degrees offer targeted courses, short 8-week sessions, and pay-as-you-go tuition.

Admission is based on performance in three preliminary courses, not academic history. CU degrees on Coursera are ideal for recent graduates or working professionals.

Learn more:

MS in Artificial Intelligence:

https:

//www.coursera.org/degrees/ms-artificial-intelligence-boulder MS in Computer Science:

https:

//coursera.org/degrees/ms-computer-science-boulder

Programme

Processus de Décision Déterministes

Ce module présente les bases de la modélisation et de l'optimisation pour la prise de décision séquentielle sous leur forme la plus simple : les processus de décision déterministes avec récompenses actualisées. Nous commençons par les états, les actions, les transitions et les récompenses en tant que langage pour représenter les problèmes décisionnels dans le temps. Nous développons ensuite des fonctions de valeur et des équations de Bellman comme outils pour optimiser le rendement à long terme. L'objectif est de développer une intuition pour comprendre pourquoi la programmation dynamique est correcte dans le cadre plus simple des processus de décision déterministes avant d'introduire des transitions stochastiques, l'apprentissage à partir d'expériences échantillonnées et le bootstrap dans les modules suivants.

Chaînes de Markov et Processus de Décision de Markov

Ce module ajoute de la stochasticité à l'image déterministe développée dans le module précédent. Les apprenants continuent avec l'exemple du quiz surprise, désormais avec des résultats incertains : étudier aide généralement mais pas toujours, et se détendre peut réduire la préparation mais pas toujours. Le module introduit d'abord des transitions stochastiques comme des distributions de probabilité sur les états suivants, puis étudie les chaînes de Markov en tant que systèmes stochastiques sans choix et enfin ajoute des actions pour obtenir des processus de décision de Markov. L'objectif est de faire ressentir la récompense actualisée attendue, les politiques, et les équations de Bellman comme des extensions naturelles du cadre déterministe.

Programmation Dynamique dans les PDM

Ce module se concentre sur l'optimisation des modèles connus. Les apprenants utilisent les équations de Bellman comme outils computationnels pour l'évaluation de politiques, l'amélioration de politiques, l'itération de valeur, l'itération de politique, et les formulations en programmation linéaire des PDM actualisés.

Apprentissage à partir d'Expériences Échantillonnées

Ce module initie la transition de la planification à l'apprentissage par renforcement. En

Contrôle, Exploration, et Algorithmes de RL Tabulaire

Ce module complète la partie apprentissage par renforcement tabulaire du Cours 1. Le Module 4 a introduit l'apprentissage basé sur des échantillons via les bandits et les méthodes de Monte Carlo. Le Module 5 introduit l'apprentissage par différence temporelle : mise à jour après une transition échantillonnée en combinant une récompense observée avec une estimation de valeur bootstrapée. Le module se termine en résumant l'apprentissage par renforcement tabulaire et en motivant la transition vers l'approximation de fonction et le deep RL.

Enseigné par

Ashutosh Trivedi

Matières

Computer Science

Ce que vous devez savoir avant
Vous commencez

Maîtriser les algorithmes classiques d'apprentissage par renforcement

Cours en ligne de l'Université de Colorado Boulder

Cours d'été à l'Université de Colorado Boulder

Meilleurs cours de la CU Boulder pour les étudiants

Cours à la CU Boulder : Plus avec des leçons gratuites

Avantages de suivre des cours en ligne à l'Université de Colorado Boulder

Conclusion

5 weeks, 3 hours a week

Intermédiaire

Paid Course

Aperçu

Programme

Enseigné par

Matières

Ce que vous devez savoir avant Vous commencez

Maîtriser les algorithmes classiques d'apprentissage par renforcement

Cours en ligne de l'Université de Colorado Boulder

Cours d'été à l'Université de Colorado Boulder

Meilleurs cours de la CU Boulder pour les étudiants

Cours à la CU Boulder : Plus avec des leçons gratuites

Avantages de suivre des cours en ligne à l'Université de Colorado Boulder

Conclusion

5 weeks, 3 hours a week

Intermédiaire

Paid Course

Aperçu

Programme

Enseigné par

Matières

IA pour l'automatisation et la modélisation de la FP&A (planification financière et analyse)

FP&A avec IA : Projet de Fin d'Études

IA générative pour le TALN avec PyTorch

Ingénieur en apprentissage automatique : Modèles d'apprentissage automatique et profond

Préparation des données et apprentissage automatique appliqué

Fondations de l'apprentissage par renforcement

Ce que vous devez savoir avant
Vous commencez