Prediction and Control with Function Approximation
Coursera
5 Cours
The University of Alberta is a premier research institution situated in Edmonton, Canada. It is renowned for its outstanding teaching, research, innovation and its commitment to community involvement.
Aperçu
Embarquez dans un voyage transformateur avec le cours "Prédiction et Contrôle avec Approximation de Fonction", proposé par l'Université de l'Alberta via Coursera. Ce programme minutieusement conçu est parfait pour ceux qui cherchent à naviguer dans les complexités des espaces d'états grands, à haute dimension ou potentiellement infinis. Découvrez comment transformer l'estimation des fonctions de valeur en un défi d'apprentissage supervisé, en utilisant l'approximation de fonction pour créer des agents qui trouvent un équilibre parfait entre généralisation et discrimination pour optimiser les récompenses.
Commencez par explorer comment les méthodologies traditionnelles d'évaluation de politique ou de prédiction telles que Monte Carlo et TD s'adaptent à l'approximation de fonction. Plongez dans les subtilités de la construction de fonctionnalités pour l'Apprentissage par Renforcement (RL), et maîtrisez l'apprentissage de représentation à travers les réseaux neuronaux et la rétropropagation. Le cours se termine par un examen approfondi des méthodes de gradient de politique, offrant un accès direct à l'apprentissage des politiques sans estimation de la fonction de valeur. Engagez-vous dans la résolution de deux tâches de contrôle d'état continu, et déballez les avantages des méthodes de gradient de politique dans un cadre d'action continu.
Ce cours est une continuation de l'apprentissage fondamental, en supposant une maîtrise acquise dans les cours initiaux. Les participants doivent être bien informés en probabilités & attentes, algèbre linéaire de base, calcul de base, et Python 3.0 (avec au moins un an d'expérience), y compris la capacité à implémenter des algorithmes à partir de pseudocode.
À la conclusion de vos études, vous gagnerez une compréhension nuancée de comment employer les techniques d'apprentissage supervisé pour l'approximation de la fonction de valeur, comprendre les objectifs pour la prédiction sous approximation de fonction, et mettre en œuvre TD avec approximation de fonction. Apprenez les nuances des approches de base fixe et de réseau neuronal pour la construction de fonctionnalités, abordez de nouveaux défis d'exploration introduits par l'approximation de fonction, et différenciez entre les formulations de problèmes de récompense réduite et moyenne pour le contrôle. De plus, vous aurez l'opportunité d'appliquer expected Sarsa et Q-learning avec approximation de fonction dans des tâches de contrôle d'état continu, comprendre les fondements de l'estimation des politiques directement à travers des objectifs de gradient de politique, et expérimenter avec une méthode Acteur-Critique dans un environnement à état discret.
Les catégories incluent les cours d'Apprentissage Automatique, de l'Apprentissage par Renforcement, et de l'Apprentissage Supervisé, ce qui en fait une expérience éducative essentielle pour toute personne désireuse d'avancer leur compréhension et capacités dans ces domaines.