Qué necesitas saber antes de
comenzar

Inicio 24 June 2026 08:51

Fin 24 June 2026

00 Días
00 Horas
00 Minutos
00 Segundos
course image

Algoritmos Avanzados de Aprendizaje Profundo por Refuerzo y Aplicaciones

Domina algoritmos avanzados de aprendizaje por refuerzo profundo (deep RL): extensiones de DQN, gradientes de política y métodos actor-crítico, aplicándolos a entornos de juegos, comercio de acciones y procesamiento de lenguaje natural (NLP) para resolver complejos desafíos de IA del mundo real.
Packt via Coursera

Packt

2935 Cursos


7 hours

Actualización opcional disponible

Avanzado

Avanza a tu propio ritmo

Paid Course

Actualización opcional disponible

Resumen

This course delves into advanced deep reinforcement learning (RL) algorithms, exploring state-of-the-art techniques such as DQN extensions, policy gradients, and actor-critic methods. It focuses on optimizing and extending RL models to address complex real-world tasks, making it essential for professionals working with AI in dynamic environments.

Through a blend of theoretical discussions and practical applications, this course enables learners to apply RL strategies across domains like gaming, stock trading, and natural language environments. You’ll learn how to accelerate training processes and improve performance in diverse settings.

By mastering these advanced RL algorithms, learners gain the ability to tackle complex challenges in various domains confidently. The course focuses on not just understanding the theory behind the algorithms but also implementing them effectively in practical scenarios.

The course is perfect for professionals with a solid understanding of machine learning, especially those seeking to enhance their RL skills. Ideal for those working in AI development, game design, or financial modeling, it offers in-depth insights and actionable skills.

This course is part two of a three-course Specialization designed to provide a comprehensive learning pathway in Reinforcement Learning. While it delivers standalone value, learners seeking an in-depth progression may benefit from completing the full Specialization.

Programa

  • Extensiones de DQN
  • Este módulo explora mejoras avanzadas al algoritmo de Red Q-Profunda (DQN), incluidas el aprendizaje de múltiples pasos, redes ruidosas para mejorar la exploración, buffers de repetición priorizada y enfoques distribucionales. Los aprendices adquirirán experiencia práctica implementando estas extensiones y analizando su impacto en el rendimiento y eficiencia del entrenamiento.
  • Formas de Acelerar el Aprendizaje por Refuerzo
  • Este módulo explora estrategias prácticas para acelerar el entrenamiento de aprendizaje por refuerzo (RL), centradas en mejoras de la red Q-profunda (DQN). Los aprendices investigarán cuellos de botella en el rendimiento, experimentarán con tamaños de lotes y paralelización, y comprenderán el impacto de los wrappers de entorno en la eficiencia del entrenamiento. Al final, estarás preparado para optimizar los flujos de trabajo de RL para una convergencia más rápida.
  • Comercio de Acciones Usando RL
  • Este módulo guía a los aprendices a través de la aplicación de técnicas de aprendizaje por refuerzo de red Q-profunda (DQN) a escenarios reales de comercio de acciones. Trabajarás con datos históricos del mercado de valores ruso y explorarás diferentes arquitecturas de DQN, incluidos modelos de avance y convolucionales, para desarrollar y evaluar estrategias comerciales.
  • Gradientes de Política
  • Este módulo introduce métodos de gradiente de política como un enfoque alternativo para resolver problemas de procesos de decisión de Markov en el aprendizaje por refuerzo. Los aprendices explorarán los fundamentos matemáticos, los detalles de implementación y consideraciones prácticas como la varianza del gradiente y el ajuste de hiperparámetros. Al trabajar con ejemplos del mundo real como CartPole, los estudiantes ganarán experiencia práctica optimizando políticas usando redes neuronales.
  • Métodos Actor-Crítico - A2C y A3C
  • Este módulo introduce el aprendizaje por refuerzo basado en políticas a través de métodos actor-crítico, centrándose en los algoritmos A2C y A3C. Los aprendices explorarán cómo estos métodos reducen la varianza en gradientes de política, implementan entornos paralelos y aplican estas técnicas a juegos clásicos de control y de Atari. Se incluyen ejercicios prácticos de codificación y análisis de rendimiento para solidificar la comprensión.
  • El Entorno TextWorld
  • Este módulo introduce a los aprendices en la resolución de juegos de ficción interactiva basados en texto usando aprendizaje por refuerzo dentro del entorno TextWorld. Explorarás la generación de juegos, los fundamentos profundos de PNL, las incrustaciones de palabras y los procesos de pre-procesamiento, culminando en el entrenamiento de agentes e integrando modelos de lenguaje grande como ChatGPT para juego automatizado. Al final, comprenderás cómo procesar observaciones textuales complejas y aplicar técnicas de RL a entornos dinámicos y ricos en lenguaje.
  • Navegación Web
  • Este módulo explora cómo el aprendizaje por refuerzo puede aplicarse a tareas de navegación web y automatización de navegadores. Los aprendices experimentarán con simples agentes de RL en el entorno MiniWoB, abordarán desafíos únicos de la automatización de navegadores y mejorarán el rendimiento de los agentes usando descripciones de texto y demostraciones humanas.

Impartido por

Packt - Course Instructors


Materias

Computer Science