Ce que vous devez savoir avant
Vous commencez

Débute 1 July 2026 10:07

Se termine 1 July 2026

00 Jours
00 Heures
00 Minutes
00 Secondes
course image

Maîtriser les algorithmes classiques d'apprentissage par renforcement

Explorez les fondements mathématiques de l'apprentissage par renforcement, en couvrant les processus de décision de Markov, la programmation dynamique, l'apprentissage Q et SARSA pour résoudre des problèmes de prise de décision finie en utilisant des méthodes tabulaires.
University of Colorado Boulder via Coursera

University of Colorado Boulder

40 Cours


L'Université de Colorado Boulder, souvent appelée CU Boulder, propose une grande variété de programmes et de cours éducatifs, à la fois en personne et en ligne. Les étudiants peuvent choisir parmi diverses filières d'études, notamment des cours d'arts, de sciences, d'ingénierie, de commerce et plus encore.

Cours en ligne de l'Université de Colorado Boulder

L'un des principaux avantages de la CU Boulder est la possibilité de suivre des cours en ligne. C'est une formidable opportunité pour les étudiants qui veulent une éducation de qualité mais préfèrent avoir de la flexibilité dans leur emploi du temps. Les cours en ligne de la CU Boulder donnent accès à des professeurs hautement qualifiés et aux matériels les plus récents.

Cours d'été à l'Université de Colorado Boulder

L'été est un excellent moment pour explorer de nouveaux sujets et élargir ses connaissances. L'Université de Colorado Boulder propose une variété de cours d'été en ligne et en personne. C'est une excellente opportunité pour les étudiants de passer leur été utilement en étudiant des sujets qu'ils aiment.

Meilleurs cours de la CU Boulder pour les étudiants

La CU Boulder offre non seulement une grande variété de programmes, mais aussi une éducation de haute qualité. Les étudiants peuvent choisir parmi une variété de cours, du niveau basique au niveau avancé, pour développer leurs compétences et leurs centres d'intérêt. L'université utilise activement des approches innovantes dans l'enseignement, comme l'éducation par l'IA, qui aide les étudiants à acquérir des connaissances à jour.

Cours à la CU Boulder : Plus avec des leçons gratuites

Grâce à une variété de cours gratuits à la CU Boulder, les étudiants peuvent élargir leurs connaissances dans de nombreux domaines. Ces cours sont disponibles pour les étudiants débutants et avancés, permettant à chacun de trouver une option de formation adaptée à ses intérêts.

Avantages de suivre des cours en ligne à l'Université de Colorado Boulder

L'Université de Colorado Boulder offre aux étudiants une opportunité unique d'étudier à travers des cours en ligne, qui présentent un certain nombre d'avantages importants.

Premièrement, l'avantage d'étudier les cours en ligne à l'Université de Colorado Boulder est la flexibilité de l'horaire. Les étudiants peuvent choisir leur propre moment pour étudier le matériel et regarder les cours, ce qui leur facilite l'équilibre entre leurs études et d'autres responsabilités telles que le travail ou les engagements familiaux. Cette flexibilité rend l'éducation plus accessible à un plus grand nombre de personnes.

Deuxièmement, les cours de l'Université de Colorado Boulder offrent aux étudiants l'opportunité d'étudier un matériel unique présenté par des enseignants expérimentés. Grâce à l'accès à des experts dans divers domaines de la connaissance, les étudiants peuvent acquérir des connaissances et des compétences pertinentes qui seront utiles dans le monde moderne.

Le troisième avantage de suivre les cours en ligne de la CU Boulder est l'occasion de se connecter et de collaborer avec d'autres étudiants de différents pays et cultures. Cela contribue à enrichir l'expérience éducative en permettant aux étudiants d'être exposés à différents points de vue et d'élargir leurs horizons.

En outre, les cours en ligne de l'Université de Colorado Boulder offrent généralement une variété de matériel d'apprentissage interactif, rendant le processus d'apprentissage plus amusant et efficace. Les étudiants peuvent apprendre grâce à des conférences vidéo, des tests, des forums et d'autres méthodes innovantes qui stimulent l'apprentissage.

Ainsi, suivre des cours en ligne de l'Université de Colorado Boulder offre aux étudiants de nombreux avantages, y compris une programmation flexible, l'accès à des experts, la communication internationale, et une approche éducative interactive. C'est une excellente occasion pour les étudiants de recevoir une éducation de qualité, d'élargir leurs connaissances et compétences, et de se préparer aux défis du monde moderne.

Conclusion

L'Université de Colorado Boulder est un endroit où les étudiants peuvent recevoir une éducation de qualité avec une variété de cours et de programmes au choix. Que vous cherchiez une formation en ligne ou en personne, des cours d'été ou des programmes gratuits, la CU Boulder offre de nombreuses opportunités pour le développement et l'apprentissage!

5 weeks, 3 hours a week

Amélioration optionnelle disponible

Intermédiaire

Progressez à votre rythme

Paid Course

Amélioration optionnelle disponible

Aperçu

How can an agent learn to make good decisions through repeated interaction with an uncertain environment? This course introduces the mathematical and algorithmic foundations of classical reinforcement learning, with an emphasis on finite Markov decision processes and tabular methods.

The course begins with the simplest settings in which the central ideas are clearest:

deterministic decision processes, discounted rewards, and Bellman optimality equations. It then introduces stochasticity through Markov chains and Markov decision processes, where learners study policies, value functions, expected discounted reward, and dynamic programming.

With this foundation in place, the course turns to planning methods for known models, including value iteration, policy iteration, and linear programming formulations. The second half of the course studies reinforcement learning when the model is unknown and the agent must learn from sampled experience.

Topics include multi-armed bandits, exploration and exploitation, Monte Carlo methods, temporal-difference learning, SARSA, Q-learning, and convergence principles. The course ends with a final assessment in which learners solve the same finite MDP from both model-based planning and model-free learning perspectives.

By the end of the course, learners will be able to formulate finite decision-making problems as Markov decision processes, solve them using classical planning algorithms, and implement tabular reinforcement-learning algorithms from sampled data. This course provides the foundation for later study of deep reinforcement learning, reward programming, and trustworthy AI systems.

This course can be taken for academic credit as part of CU Boulder’s Masters of Science in Computer Science (MS-CS) and Master of Science in Artificial Intelligence (MS-AI) degrees offered on the Coursera platform. These fully accredited graduate degrees offer targeted courses, short 8-week sessions, and pay-as-you-go tuition.

Admission is based on performance in three preliminary courses, not academic history. CU degrees on Coursera are ideal for recent graduates or working professionals.

Learn more:

MS in Artificial Intelligence:

https:

//www.coursera.org/degrees/ms-artificial-intelligence-boulder MS in Computer Science:

https:

//coursera.org/degrees/ms-computer-science-boulder

Programme

  • Processus de Décision Déterministes
  • Ce module présente les bases de la modélisation et de l'optimisation pour la prise de décision séquentielle sous leur forme la plus simple : les processus de décision déterministes avec récompenses actualisées. Nous commençons par les états, les actions, les transitions et les récompenses en tant que langage pour représenter les problèmes décisionnels dans le temps. Nous développons ensuite des fonctions de valeur et des équations de Bellman comme outils pour optimiser le rendement à long terme. L'objectif est de développer une intuition pour comprendre pourquoi la programmation dynamique est correcte dans le cadre plus simple des processus de décision déterministes avant d'introduire des transitions stochastiques, l'apprentissage à partir d'expériences échantillonnées et le bootstrap dans les modules suivants.
  • Chaînes de Markov et Processus de Décision de Markov
  • Ce module ajoute de la stochasticité à l'image déterministe développée dans le module précédent. Les apprenants continuent avec l'exemple du quiz surprise, désormais avec des résultats incertains : étudier aide généralement mais pas toujours, et se détendre peut réduire la préparation mais pas toujours. Le module introduit d'abord des transitions stochastiques comme des distributions de probabilité sur les états suivants, puis étudie les chaînes de Markov en tant que systèmes stochastiques sans choix et enfin ajoute des actions pour obtenir des processus de décision de Markov. L'objectif est de faire ressentir la récompense actualisée attendue, les politiques, et les équations de Bellman comme des extensions naturelles du cadre déterministe.
  • Programmation Dynamique dans les PDM
  • Ce module se concentre sur l'optimisation des modèles connus. Les apprenants utilisent les équations de Bellman comme outils computationnels pour l'évaluation de politiques, l'amélioration de politiques, l'itération de valeur, l'itération de politique, et les formulations en programmation linéaire des PDM actualisés.
  • Apprentissage à partir d'Expériences Échantillonnées
  • Ce module initie la transition de la planification à l'apprentissage par renforcement. En
  • Contrôle, Exploration, et Algorithmes de RL Tabulaire
  • Ce module complète la partie apprentissage par renforcement tabulaire du Cours 1. Le Module 4 a introduit l'apprentissage basé sur des échantillons via les bandits et les méthodes de Monte Carlo. Le Module 5 introduit l'apprentissage par différence temporelle : mise à jour après une transition échantillonnée en combinant une récompense observée avec une estimation de valeur bootstrapée. Le module se termine en résumant l'apprentissage par renforcement tabulaire et en motivant la transition vers l'approximation de fonction et le deep RL.

Enseigné par

Ashutosh Trivedi


Matières

Computer Science