Qué necesitas saber antes de
comenzar

Inicio 21 July 2026 10:52

Fin 21 July 2026

00 Días

00 Horas

00 Minutos

00 Segundos

Registrarse

Aprendizaje por Refuerzo Profundo: De la Teoría a la Práctica

Domina el aprendizaje profundo por refuerzo desde la aproximación de funciones hasta algoritmos modernos como PPO, DDPG y SAC, implementando agentes estables para entornos de alta dimensión, incluyendo juegos y robótica.

University of Colorado Boulder via Coursera

6 weeks, 2 hours a week

Actualización opcional disponible

Intermedio

Avanza a tu propio ritmo

Paid Course

Actualización opcional disponible

Resumen

How can reinforcement learning scale beyond small tabular problems to high-dimensional environments such as games, robotics, and autonomous decision-making? This course introduces deep reinforcement learning, where reinforcement-learning algorithms are combined with neural-network-based function approximation.

Learners begin by studying why tabular methods break down in large or continuous state spaces and how value functions, action-value functions, and policies can be represented by parameterized models. The course then develops value-based deep reinforcement learning methods, including fitted value iteration, Deep Q-Networks, replay buffers, target networks, Double DQN, dueling networks, and prioritized experience replay.

Learners also study direct policy optimization through policy-gradient methods such as REINFORCE, as well as actor–critic methods that combine policy optimization with value estimation. The course introduces selected modern deep RL algorithms, such as PPO, DDPG, and SAC, with emphasis on implementation, stability, diagnosis, and empirical evaluation.

By the end of the course, learners will be able to implement deep reinforcement-learning agents, diagnose common sources of instability, evaluate learned behavior using suitable experimental protocols, and report results in a reproducible way. This course can be taken for academic credit as part of CU Boulder’s Masters of Science in Computer Science (MS-CS) and Master of Science in Artificial Intelligence (MS-AI) degrees offered on the Coursera platform.

These fully accredited graduate degrees offer targeted courses, short 8-week sessions, and pay-as-you-go tuition. Admission is based on performance in three preliminary courses, not academic history.

CU degrees on Coursera are ideal for recent graduates or working professionals. Learn more:

MS in Artificial Intelligence:

https:

//www.coursera.org/degrees/ms-artificial-intelligence-boulder MS in Computer Science:

https:

//coursera.org/degrees/ms-computer-science-boulder

Programa

Aproximación de Funciones para RL

Este módulo introduce la aproximación de funciones como el punto de transición del aprendizaje por refuerzo tabular al aprendizaje por refuerzo profundo. En el Curso 1, representamos valores explícitamente usando tablas: V (s), Q(s, a). Esto funciona cuando los espacios de estados y acciones son lo suficientemente pequeños como para enumerar. Pero muchos problemas de aprendizaje por refuerzo tienen observaciones grandes, continuas, de alta dimensión o similares a imágenes. En tales configuraciones, las tablas no son suficientes. El Curso 2 reemplaza las tablas por funciones paramétricas: Vθ(s), Qθ(s, a), πθ(a | s). El vector de parámetros θ puede representar un modelo lineal, una red neuronal u otra clase de función diferenciable. La pregunta central de este módulo es: ¿Cómo aprendemos funciones de valor cuando las tablas son demasiado grandes? El módulo también explica por qué el RL profundo no es simplemente aprendizaje supervisado aplicado a datos de RL. Los objetivos son ruidosos, basados en bootstrapping, dependientes de la política y a menudo cambian conforme cambian los parámetros. Estas dificultades conducen a la tríada mortal: aproximación de funciones, bootstrapping y aprendizaje off-policy. El módulo termina con la iteración de valor ajustada como un puente de la iteración de valor tabular al aprendizaje profundo Q.

Aprendizaje profundo Q y RL profundo basado en valores

Este módulo desarrolla el aprendizaje por refuerzo profundo basado en valores como una regresión con bootstrapping. En el módulo anterior, reemplazamos las funciones de valor tabulares por funciones paramétricas: Vθ(s), Qθ(s, a), πθ(a | s). También vimos que la aproximación de funciones cambia el problema de aprendizaje: los valores ya no se almacenan de forma independiente, los objetivos pueden moverse a medida que los parámetros cambian y las actualizaciones con bootstrapping pueden volverse inestables. Este módulo aplica estas ideas al aprendizaje profundo de valores de acción. Comenzamos con la iteración de valor ajustada, que convierte las actualizaciones de Bellman en problemas de regresión. Luego estudiamos las Redes Profundas Q, o DQN, donde una red neuronal representa Qθ(s, a). DQN combina objetivos de aprendizaje Q con dos estabilizadores importantes: buffers de repetición y redes objetivo. Finalmente, estudiamos variantes comunes de DQN: Doble DQN, redes duelistas y repetición priorizada. El objetivo es entender DQN no como una receta misteriosa de aprendizaje profundo, sino como aprendizaje Q más aproximación de funciones, objetivos con bootstrapping, repetición y estabilización.

Gradientes de Políticas y REINFORCE

Este módulo introduce métodos de gradiente de políticas, una familia de algoritmos de aprendizaje por refuerzo que optimizan directamente una política parametrizada en lugar de derivar el comportamiento de una función de valor aprendida. A partir de la motivación para el aprendizaje directo de políticas, el módulo desarrolla el objetivo de gradiente de políticas, el truco de la función de puntuación que hace que este objetivo sea diferenciable a partir de la experiencia muestreada, y REINFORCE, el algoritmo básico de gradiente de políticas de Monte Carlo. Luego, el módulo introduce las líneas base como una técnica práctica de reducción de varianza y cierra motivando los métodos actor-crítico como el siguiente paso natural una vez que se introduce una línea base aprendida.

Métodos Actor-Crítico

REINFORCE actualiza la política directamente a partir de retornos de Monte Carlo muestreados, pero esos retornos son ruidosos: la misma política puede producir resultados muy diferentes de un episodio a otro. Este módulo introduce métodos actor-crítico, que moderan esa varianza al aprender un segundo componente, el crítico, que estima cuán bueno es un estado o acción y retroalimenta esa estimación en la actualización de políticas como una línea base. Los aprendices verán cómo restar una función de valor aprendida del retorno produce una señal de ventaja, cómo esa señal se generaliza del error TD de un paso al Estimador de Ventaja Generalizada de múltiples pasos, y cómo actor y crítico se entrenan conjuntamente a través de pérdidas de política y valor separadas. El módulo cierra trazando la línea conceptual desde los métodos actor-crítico básicos hasta PPO, motivando por qué controlar el tamaño de las actualizaciones de políticas es importante para el aprendizaje estable.

RL Profundo Moderno: PPO, DDPG, y SAC

Este módulo revisa algoritmos modernos de aprendizaje por refuerzo profundo a través del lente de estabilidad, exploración y control continuo. En el módulo anterior, estudiamos métodos de gradiente de políticas y actor-crítico. Las actualizaciones de gradiente de políticas simples pueden ser frágiles. Si la política cambia demasiado después de una actualización, la nueva política puede desempeñarse mucho peor que la antigua, y los datos recopilados bajo la política antigua pueden ya no ser fiables para actualizar la nueva. Este módulo estudia tres ideas algorítmicas principales. Primero, estudiamos actualizaciones de políticas conservadoras a través de TRPO y PPO. La idea principal es mejorar la política mientras se evita cambios demasiado grandes en la política. PPO implementa esta idea usando un objetivo sustituto sencillo recortado. Segundo, estudiamos DDPG, un método actor-crítico determinista para problemas de control continuo. Tercero, estudiamos SAC, un método actor-crítico regulado por entropía que fomenta la exploración y a menudo mejora la robustez.

Implementación Práctica de RL Profundo

Este módulo convierte los algoritmos de aprendizaje por refuerzo profundo en patrones de implementación. Los módulos anteriores introdujeron las principales ideas algorítmicas: aproximación de funciones, DQN, gradientes de políticas, métodos actor-crítico, PPO, DDPG, y SAC. Este módulo pregunta cómo esas ideas se convierten en código funcional. Una implementación de RL profundo no es solo un bucle de entrenamiento de redes neuronales. En el aprendizaje supervisado, los datos generalmente se dan en un conjunto de datos fijo. En el aprendizaje por refuerzo, los datos son generados por un agente interactuando con un entorno. Esto significa que la implementación debe gestionar la interacción con el entorno, la exploración, los modelos de redes neuronales, los optimizadores, los buffers de repetición o buffers de trayectoria, las redes objetivo, el registro, la evaluación, y la reproducibilidad.

Impartido por

Ashutosh Trivedi

Materias

Computer Science

Qué necesitas saber antes de
comenzar

Aprendizaje por Refuerzo Profundo: De la Teoría a la Práctica

Cursos en línea de la Universidad de Colorado Boulder

Cursos de verano en la Universidad de Colorado Boulder

Mejores cursos de CU Boulder para estudiantes

Cursos en CU Boulder: Más con Clases Gratuitas

Ventajas de estudiar cursos en línea en la Universidad de Colorado Boulder

Conclusión

6 weeks, 2 hours a week

Intermedio

Paid Course

Resumen

Programa

Impartido por

Materias

Qué necesitas saber antes de comenzar

Aprendizaje por Refuerzo Profundo: De la Teoría a la Práctica

Cursos en línea de la Universidad de Colorado Boulder

Cursos de verano en la Universidad de Colorado Boulder

Mejores cursos de CU Boulder para estudiantes

Cursos en CU Boulder: Más con Clases Gratuitas

Ventajas de estudiar cursos en línea en la Universidad de Colorado Boulder

Conclusión

6 weeks, 2 hours a week

Intermedio

Paid Course

Resumen

Programa

Impartido por

Materias

IA para Automatización y Modelado de FP&A

FP&A con IA: Proyecto de Fin de Carrera

IA generativa para PLN con PyTorch

Ingeniero de Aprendizaje Automático: Modelos de ML y Aprendizaje Profundo

Preparación de Datos y Aprendizaje Automático Aplicado

Fundamentos del Aprendizaje por Reforzamiento

Qué necesitas saber antes de
comenzar