Ce que vous devez savoir avant
Vous commencez

Débute 24 June 2026 08:52

Se termine 24 June 2026

00 Jours
00 Heures
00 Minutes
00 Secondes
course image

Algorithmes et applications avancés de l'apprentissage par renforcement profond

Maîtrisez les algorithmes avancés de RL profonde—extensions de DQN, gradients de politique et méthodes d'acteur-critique—en les appliquant à des environnements de jeu, de trading boursier et de traitement du langage naturel pour résoudre des défis complexes d'IA dans le monde réel.
Packt via Coursera

Packt

2935 Cours


7 hours

Amélioration optionnelle disponible

Avancé

Progressez à votre rythme

Paid Course

Amélioration optionnelle disponible

Aperçu

This course delves into advanced deep reinforcement learning (RL) algorithms, exploring state-of-the-art techniques such as DQN extensions, policy gradients, and actor-critic methods. It focuses on optimizing and extending RL models to address complex real-world tasks, making it essential for professionals working with AI in dynamic environments.

Through a blend of theoretical discussions and practical applications, this course enables learners to apply RL strategies across domains like gaming, stock trading, and natural language environments. You’ll learn how to accelerate training processes and improve performance in diverse settings.

By mastering these advanced RL algorithms, learners gain the ability to tackle complex challenges in various domains confidently. The course focuses on not just understanding the theory behind the algorithms but also implementing them effectively in practical scenarios.

The course is perfect for professionals with a solid understanding of machine learning, especially those seeking to enhance their RL skills. Ideal for those working in AI development, game design, or financial modeling, it offers in-depth insights and actionable skills.

This course is part two of a three-course Specialization designed to provide a comprehensive learning pathway in Reinforcement Learning. While it delivers standalone value, learners seeking an in-depth progression may benefit from completing the full Specialization.

Programme

  • Extensions de DQN
  • Ce module explore les améliorations avancées de l'algorithme Deep Q-Network (DQN), y compris l'apprentissage multi-étapes, les réseaux bruyants pour une exploration améliorée, les tampons de relecture priorisée et les approches distributionnelles. Les apprenants acquerront une expérience pratique dans la mise en œuvre de ces extensions et l'analyse de leur impact sur la performance et l'efficacité de l'entraînement.
  • Façons d'accélérer l'apprentissage par renforcement
  • Ce module explore des stratégies pratiques pour accélérer l'entraînement de l'apprentissage par renforcement (RL), en se concentrant sur les améliorations du réseau de neurones profond Q (DQN). Les apprenants étudieront les goulets d'étranglement de performance, expérimenteront avec les tailles de lots et la parallélisation, et comprendront l'impact des enveloppes d'environnement sur l'efficacité de l'entraînement. À la fin, vous serez équipé pour optimiser les flux de travail RL pour une convergence plus rapide.
  • Trading d'actions utilisant l'RL
  • Ce module guide les apprenants à travers l'application des techniques d'apprentissage par renforcement du réseau de neurones profond Q (DQN) à des scénarios réels de trading d'actions. Vous travaillerez avec des données historiques du marché boursier russe et explorerez différentes architectures de DQN, y compris les modèles à propagation directe et convolutionnels, pour développer et évaluer des stratégies de trading.
  • Gradients de politique
  • Ce module introduit les méthodes de gradient de politique comme une approche alternative pour résoudre les problèmes de processus décisionnel de Markov dans l'apprentissage par renforcement. Les apprenants exploreront les fondements mathématiques, les détails de l'implémentation, et les considérations pratiques telles que la variance des gradients et le réglage des hyperparamètres. En travaillant sur des exemples réels comme CartPole, les étudiants acquerront une expérience pratique dans l'optimisation des politiques en utilisant des réseaux neuronaux.
  • Méthodes acteur-critique - A2C et A3C
  • Ce module présente l'apprentissage par renforcement basé sur la politique à travers des méthodes acteur-critique, en se concentrant sur les algorithmes A2C et A3C. Les apprenants exploreront comment ces méthodes réduisent la variance dans les gradients de politique, implémentent des environnements parallèles, et appliquent ces techniques aux jeux de contrôle classique et Atari. Des exercices de codage pratiques et une analyse de performance sont inclus pour solidifier la compréhension.
  • L'environnement TextWorld
  • Ce module initie les apprenants à la résolution de jeux de fiction interactive basés sur du texte en utilisant l'apprentissage par renforcement dans l'environnement TextWorld. Vous explorerez la génération de jeux, les fondamentaux de l'apprentissage profond NLP, les embeddings de mots, et les pipelines de prétraitement, culminant avec la formation d'agents et l'intégration de modèles de langage large comme ChatGPT pour le jeu automatisé. À la fin, vous comprendrez comment traiter des observations textuelles complexes et appliquer des techniques RL à des environnements dynamiques riches en langage.
  • Navigation Web
  • Ce module explore comment l'apprentissage par renforcement peut être appliqué à la navigation Web et aux tâches d'automatisation de navigateur. Les apprenants expérimenteront avec des agents RL simples dans l'environnement MiniWoB, aborderont les défis uniques à l'automatisation de navigateur, et amélioreront les performances des agents en utilisant des descriptions textuelles et des démonstrations humaines.

Enseigné par

Packt - Course Instructors


Matières

Computer Science