Aperçu
This course delves into advanced deep reinforcement learning (RL) algorithms, exploring state-of-the-art techniques such as DQN extensions, policy gradients, and actor-critic methods. It focuses on optimizing and extending RL models to address complex real-world tasks, making it essential for professionals working with AI in dynamic environments.
Through a blend of theoretical discussions and practical applications, this course enables learners to apply RL strategies across domains like gaming, stock trading, and natural language environments. You’ll learn how to accelerate training processes and improve performance in diverse settings.
By mastering these advanced RL algorithms, learners gain the ability to tackle complex challenges in various domains confidently. The course focuses on not just understanding the theory behind the algorithms but also implementing them effectively in practical scenarios.
The course is perfect for professionals with a solid understanding of machine learning, especially those seeking to enhance their RL skills. Ideal for those working in AI development, game design, or financial modeling, it offers in-depth insights and actionable skills.
This course is part two of a three-course Specialization designed to provide a comprehensive learning pathway in Reinforcement Learning. While it delivers standalone value, learners seeking an in-depth progression may benefit from completing the full Specialization.
Programme
- Extensions de DQN
Ce module explore les améliorations avancées de l'algorithme Deep Q-Network (DQN), y compris l'apprentissage multi-étapes, les réseaux bruyants pour une exploration améliorée, les tampons de relecture priorisée et les approches distributionnelles. Les apprenants acquerront une expérience pratique dans la mise en œuvre de ces extensions et l'analyse de leur impact sur la performance et l'efficacité de l'entraînement.
- Façons d'accélérer l'apprentissage par renforcement
Ce module explore des stratégies pratiques pour accélérer l'entraînement de l'apprentissage par renforcement (RL), en se concentrant sur les améliorations du réseau de neurones profond Q (DQN). Les apprenants étudieront les goulets d'étranglement de performance, expérimenteront avec les tailles de lots et la parallélisation, et comprendront l'impact des enveloppes d'environnement sur l'efficacité de l'entraînement. À la fin, vous serez équipé pour optimiser les flux de travail RL pour une convergence plus rapide.
- Trading d'actions utilisant l'RL
Ce module guide les apprenants à travers l'application des techniques d'apprentissage par renforcement du réseau de neurones profond Q (DQN) à des scénarios réels de trading d'actions. Vous travaillerez avec des données historiques du marché boursier russe et explorerez différentes architectures de DQN, y compris les modèles à propagation directe et convolutionnels, pour développer et évaluer des stratégies de trading.
- Gradients de politique
Ce module introduit les méthodes de gradient de politique comme une approche alternative pour résoudre les problèmes de processus décisionnel de Markov dans l'apprentissage par renforcement. Les apprenants exploreront les fondements mathématiques, les détails de l'implémentation, et les considérations pratiques telles que la variance des gradients et le réglage des hyperparamètres. En travaillant sur des exemples réels comme CartPole, les étudiants acquerront une expérience pratique dans l'optimisation des politiques en utilisant des réseaux neuronaux.
- Méthodes acteur-critique - A2C et A3C
Ce module présente l'apprentissage par renforcement basé sur la politique à travers des méthodes acteur-critique, en se concentrant sur les algorithmes A2C et A3C. Les apprenants exploreront comment ces méthodes réduisent la variance dans les gradients de politique, implémentent des environnements parallèles, et appliquent ces techniques aux jeux de contrôle classique et Atari. Des exercices de codage pratiques et une analyse de performance sont inclus pour solidifier la compréhension.
- L'environnement TextWorld
Ce module initie les apprenants à la résolution de jeux de fiction interactive basés sur du texte en utilisant l'apprentissage par renforcement dans l'environnement TextWorld. Vous explorerez la génération de jeux, les fondamentaux de l'apprentissage profond NLP, les embeddings de mots, et les pipelines de prétraitement, culminant avec la formation d'agents et l'intégration de modèles de langage large comme ChatGPT pour le jeu automatisé. À la fin, vous comprendrez comment traiter des observations textuelles complexes et appliquer des techniques RL à des environnements dynamiques riches en langage.
- Navigation Web
Ce module explore comment l'apprentissage par renforcement peut être appliqué à la navigation Web et aux tâches d'automatisation de navigateur. Les apprenants expérimenteront avec des agents RL simples dans l'environnement MiniWoB, aborderont les défis uniques à l'automatisation de navigateur, et amélioreront les performances des agents en utilisant des descriptions textuelles et des démonstrations humaines.
Enseigné par
Packt - Course Instructors
Matières
Computer Science