Ce que vous devez savoir avant
de commencer

Débute 24 June 2025 22:57

Se termine 24 June 2025

00 Jours

00 Heures

00 Minutes

00 Secondes

Prediction and Control with Function Approximation

Embarquez dans un voyage transformateur avec le cours "Prédiction et Contrôle avec Approximation de Fonction", proposé par l'Université de l'Alberta via Coursera. Ce programme minutieusement conçu est parfait pour ceux qui cherchent à naviguer dans les complexités des espaces d'états grands, à haute dimension ou potentiellement infinis. Découvrez c.

University of Alberta via Coursera

Non spécifié

Mise à niveau optionnelle disponible

Tous les niveaux

Progressez à votre rythme

Free

Mise à niveau optionnelle disponible

Aperçu

Découvrez comment transformer l'estimation des fonctions de valeur en un défi d'apprentissage supervisé, en utilisant l'approximation de fonction pour créer des agents qui trouvent un équilibre parfait entre généralisation et discrimination pour optimiser les récompenses.

Commencez par explorer comment les méthodologies traditionnelles d'évaluation de politique ou de prédiction telles que Monte Carlo et TD s'adaptent à l'approximation de fonction. Plongez dans les subtilités de la construction de fonctionnalités pour l'Apprentissage par Renforcement (RL), et maîtrisez l'apprentissage de représentation à travers les réseaux neuronaux et la rétropropagation.

Le cours se termine par un examen approfondi des méthodes de gradient de politique, offrant un accès direct à l'apprentissage des politiques sans estimation de la fonction de valeur. Engagez-vous dans la résolution de deux tâches de contrôle d'état continu, et déballez les avantages des méthodes de gradient de politique dans un cadre d'action continu.

Ce cours est une continuation de l'apprentissage fondamental, en supposant une maîtrise acquise dans les cours initiaux.

Les participants doivent être bien informés en probabilités & attentes, algèbre linéaire de base, calcul de base, et Python 3.0 (avec au moins un an d'expérience), y compris la capacité à implémenter des algorithmes à partir de pseudocode.

À la conclusion de vos études, vous gagnerez une compréhension nuancée de comment employer les techniques d'apprentissage supervisé pour l'approximation de la fonction de valeur, comprendre les objectifs pour la prédiction sous approximation de fonction, et mettre en œuvre TD avec approximation de fonction. Apprenez les nuances des approches de base fixe et de réseau neuronal pour la construction de fonctionnalités, abordez de nouveaux défis d'exploration introduits par l'approximation de fonction, et différenciez entre les formulations de problèmes de récompense réduite et moyenne pour le contrôle.

De plus, vous aurez l'opportunité d'appliquer expected Sarsa et Q-learning avec approximation de fonction dans des tâches de contrôle d'état continu, comprendre les fondements de l'estimation des politiques directement à travers des objectifs de gradient de politique, et expérimenter avec une méthode Acteur-Critique dans un environnement à état discret.

Les catégories incluent les cours d'Apprentissage Automatique, de l'Apprentissage par Renforcement, et de l'Apprentissage Supervisé, ce qui en fait une expérience éducative essentielle pour toute personne désireuse d'avancer leur compréhension et capacités dans ces domaines.