Qué necesitas saber antes de
comenzar

Inicio 1 July 2026 08:54

Fin 1 July 2026

00 Días
00 Horas
00 Minutos
00 Segundos
course image

Aprendizaje por Refuerzo Profundo: De la Teoría a la Práctica

Domina el aprendizaje profundo por refuerzo desde la aproximación de funciones hasta algoritmos modernos como PPO, DDPG y SAC, implementando agentes estables para entornos de alta dimensión, incluyendo juegos y robótica.
University of Colorado Boulder via Coursera

University of Colorado Boulder

40 Cursos


La Universidad de Colorado Boulder, a menudo referida como CU Boulder, ofrece una amplia gama de programas educativos y cursos, tanto presenciales como en línea. Los estudiantes pueden elegir entre una variedad de pistas de estudio, incluyendo cursos de artes, ciencias, ingeniería, negocios y más.

Cursos en línea de la Universidad de Colorado Boulder

Una de las principales ventajas de CU Boulder es la posibilidad de tomar cursos en línea. Esta es una excelente oportunidad para los estudiantes que desean una educación de calidad pero prefieren flexibilidad en su horario. Los cursos en línea de CU Boulder brindan acceso a profesores altamente calificados y los materiales más actualizados.

Cursos de verano en la Universidad de Colorado Boulder

El verano es un excelente momento para explorar nuevos temas y expandir tus conocimientos. La Universidad de Colorado Boulder ofrece una variedad de cursos de verano, tanto en línea como presenciales. Esta es una excelente oportunidad para que los estudiantes pasen su verano productivamente estudiando temas de interés.

Mejores cursos de CU Boulder para estudiantes

CU Boulder no solo ofrece una amplia variedad de programas, sino también una educación de alta calidad. Los estudiantes pueden elegir entre una variedad de cursos, desde básicos hasta avanzados, para desarrollar sus habilidades e intereses. La universidad utiliza activamente enfoques innovadores para la enseñanza, como la Educación IA, que ayuda a los estudiantes a adquirir conocimientos actualizados.

Cursos en CU Boulder: Más con Clases Gratuitas

Con una variedad de cursos gratuitos en CU Boulder, los estudiantes pueden expandir sus conocimientos en una variedad de áreas. Estos cursos están disponibles tanto para principiantes como para estudiantes avanzados, permitiendo a todos encontrar una opción de formación adecuada a sus intereses.

Ventajas de estudiar cursos en línea en la Universidad de Colorado Boulder

La Universidad de Colorado Boulder brinda a los estudiantes una oportunidad única para estudiar a través de cursos en línea, lo cual tiene una serie de ventajas significativas.

En primer lugar, la ventaja de estudiar cursos en línea en la Universidad de Colorado Boulder es el horario flexible. Los estudiantes pueden elegir su propio tiempo para estudiar el material y ver las conferencias, lo que facilita el equilibrio de sus estudios con otras responsabilidades, como el trabajo o los compromisos familiares. Esta flexibilidad hace que la educación sea más accesible para un rango más amplio de personas.

En segundo lugar, los cursos de la Universidad de Colorado Boulder brindan a los estudiantes la oportunidad de estudiar material único presentado por profesores experimentados. A través del acceso a expertos en varios campos del conocimiento, los estudiantes pueden adquirir conocimientos y habilidades relevantes que serán útiles en el mundo moderno.

El tercer beneficio de tomar cursos en línea de CU Boulder es la oportunidad de conectarse y colaborar con otros estudiantes de diferentes países y culturas. Esto contribuye a una enriquecedora experiencia educativa al permitir que los estudiantes se expongan a diferentes puntos de vista y amplíen sus horizontes.

Además, los cursos en línea de la Universidad de Colorado Boulder suelen ofrecer una variedad de materiales de aprendizaje interactivos, lo que hace que el proceso de aprendizaje sea más divertido y efectivo. Los estudiantes pueden aprender a través de videoconferencias, pruebas, foros y otros métodos innovadores que estimulan el aprendizaje.

Por lo tanto, tomar cursos en línea de la Universidad de Colorado Boulder ofrece a los estudiantes muchos beneficios, incluyendo programación flexible, acceso a expertos, comunicación internacional y un enfoque educativo interactivo. Esta es una excelente oportunidad para que los estudiantes reciban una educación de calidad, expandan sus conocimientos y habilidades, y se preparen para los desafíos del mundo moderno.

Conclusión

La Universidad de Colorado Boulder es un lugar donde los estudiantes pueden recibir una educación de calidad con una variedad de cursos y programas para elegir. Ya sea que estés buscando formación en línea o presencial, cursos de verano o programas gratuitos, CU Boulder ofrece amplias oportunidades para el desarrollo y el aprendizaje!

6 weeks, 2 hours a week

Actualización opcional disponible

Intermedio

Avanza a tu propio ritmo

Paid Course

Actualización opcional disponible

Resumen

How can reinforcement learning scale beyond small tabular problems to high-dimensional environments such as games, robotics, and autonomous decision-making? This course introduces deep reinforcement learning, where reinforcement-learning algorithms are combined with neural-network-based function approximation.

Learners begin by studying why tabular methods break down in large or continuous state spaces and how value functions, action-value functions, and policies can be represented by parameterized models. The course then develops value-based deep reinforcement learning methods, including fitted value iteration, Deep Q-Networks, replay buffers, target networks, Double DQN, dueling networks, and prioritized experience replay.

Learners also study direct policy optimization through policy-gradient methods such as REINFORCE, as well as actor–critic methods that combine policy optimization with value estimation. The course introduces selected modern deep RL algorithms, such as PPO, DDPG, and SAC, with emphasis on implementation, stability, diagnosis, and empirical evaluation.

By the end of the course, learners will be able to implement deep reinforcement-learning agents, diagnose common sources of instability, evaluate learned behavior using suitable experimental protocols, and report results in a reproducible way. This course can be taken for academic credit as part of CU Boulder’s Masters of Science in Computer Science (MS-CS) and Master of Science in Artificial Intelligence (MS-AI) degrees offered on the Coursera platform.

These fully accredited graduate degrees offer targeted courses, short 8-week sessions, and pay-as-you-go tuition. Admission is based on performance in three preliminary courses, not academic history.

CU degrees on Coursera are ideal for recent graduates or working professionals. Learn more:

MS in Artificial Intelligence:

https:

//www.coursera.org/degrees/ms-artificial-intelligence-boulder MS in Computer Science:

https:

//coursera.org/degrees/ms-computer-science-boulder

Programa

  • Aproximación de Funciones para RL
  • Este módulo introduce la aproximación de funciones como el punto de transición del aprendizaje por refuerzo tabular al aprendizaje por refuerzo profundo. En el Curso 1, representamos valores explícitamente usando tablas: V (s), Q(s, a). Esto funciona cuando los espacios de estados y acciones son lo suficientemente pequeños como para enumerar. Pero muchos problemas de aprendizaje por refuerzo tienen observaciones grandes, continuas, de alta dimensión o similares a imágenes. En tales configuraciones, las tablas no son suficientes. El Curso 2 reemplaza las tablas por funciones paramétricas: Vθ(s), Qθ(s, a), πθ(a | s). El vector de parámetros θ puede representar un modelo lineal, una red neuronal u otra clase de función diferenciable. La pregunta central de este módulo es: ¿Cómo aprendemos funciones de valor cuando las tablas son demasiado grandes? El módulo también explica por qué el RL profundo no es simplemente aprendizaje supervisado aplicado a datos de RL. Los objetivos son ruidosos, basados en bootstrapping, dependientes de la política y a menudo cambian conforme cambian los parámetros. Estas dificultades conducen a la tríada mortal: aproximación de funciones, bootstrapping y aprendizaje off-policy. El módulo termina con la iteración de valor ajustada como un puente de la iteración de valor tabular al aprendizaje profundo Q.
  • Aprendizaje profundo Q y RL profundo basado en valores
  • Este módulo desarrolla el aprendizaje por refuerzo profundo basado en valores como una regresión con bootstrapping. En el módulo anterior, reemplazamos las funciones de valor tabulares por funciones paramétricas: Vθ(s), Qθ(s, a), πθ(a | s). También vimos que la aproximación de funciones cambia el problema de aprendizaje: los valores ya no se almacenan de forma independiente, los objetivos pueden moverse a medida que los parámetros cambian y las actualizaciones con bootstrapping pueden volverse inestables. Este módulo aplica estas ideas al aprendizaje profundo de valores de acción. Comenzamos con la iteración de valor ajustada, que convierte las actualizaciones de Bellman en problemas de regresión. Luego estudiamos las Redes Profundas Q, o DQN, donde una red neuronal representa Qθ(s, a). DQN combina objetivos de aprendizaje Q con dos estabilizadores importantes: buffers de repetición y redes objetivo. Finalmente, estudiamos variantes comunes de DQN: Doble DQN, redes duelistas y repetición priorizada. El objetivo es entender DQN no como una receta misteriosa de aprendizaje profundo, sino como aprendizaje Q más aproximación de funciones, objetivos con bootstrapping, repetición y estabilización.
  • Gradientes de Políticas y REINFORCE
  • Este módulo introduce métodos de gradiente de políticas, una familia de algoritmos de aprendizaje por refuerzo que optimizan directamente una política parametrizada en lugar de derivar el comportamiento de una función de valor aprendida. A partir de la motivación para el aprendizaje directo de políticas, el módulo desarrolla el objetivo de gradiente de políticas, el truco de la función de puntuación que hace que este objetivo sea diferenciable a partir de la experiencia muestreada, y REINFORCE, el algoritmo básico de gradiente de políticas de Monte Carlo. Luego, el módulo introduce las líneas base como una técnica práctica de reducción de varianza y cierra motivando los métodos actor-crítico como el siguiente paso natural una vez que se introduce una línea base aprendida.
  • Métodos Actor-Crítico
  • REINFORCE actualiza la política directamente a partir de retornos de Monte Carlo muestreados, pero esos retornos son ruidosos: la misma política puede producir resultados muy diferentes de un episodio a otro. Este módulo introduce métodos actor-crítico, que moderan esa varianza al aprender un segundo componente, el crítico, que estima cuán bueno es un estado o acción y retroalimenta esa estimación en la actualización de políticas como una línea base. Los aprendices verán cómo restar una función de valor aprendida del retorno produce una señal de ventaja, cómo esa señal se generaliza del error TD de un paso al Estimador de Ventaja Generalizada de múltiples pasos, y cómo actor y crítico se entrenan conjuntamente a través de pérdidas de política y valor separadas. El módulo cierra trazando la línea conceptual desde los métodos actor-crítico básicos hasta PPO, motivando por qué controlar el tamaño de las actualizaciones de políticas es importante para el aprendizaje estable.
  • RL Profundo Moderno: PPO, DDPG, y SAC
  • Este módulo revisa algoritmos modernos de aprendizaje por refuerzo profundo a través del lente de estabilidad, exploración y control continuo. En el módulo anterior, estudiamos métodos de gradiente de políticas y actor-crítico. Las actualizaciones de gradiente de políticas simples pueden ser frágiles. Si la política cambia demasiado después de una actualización, la nueva política puede desempeñarse mucho peor que la antigua, y los datos recopilados bajo la política antigua pueden ya no ser fiables para actualizar la nueva. Este módulo estudia tres ideas algorítmicas principales. Primero, estudiamos actualizaciones de políticas conservadoras a través de TRPO y PPO. La idea principal es mejorar la política mientras se evita cambios demasiado grandes en la política. PPO implementa esta idea usando un objetivo sustituto sencillo recortado. Segundo, estudiamos DDPG, un método actor-crítico determinista para problemas de control continuo. Tercero, estudiamos SAC, un método actor-crítico regulado por entropía que fomenta la exploración y a menudo mejora la robustez.
  • Implementación Práctica de RL Profundo
  • Este módulo convierte los algoritmos de aprendizaje por refuerzo profundo en patrones de implementación. Los módulos anteriores introdujeron las principales ideas algorítmicas: aproximación de funciones, DQN, gradientes de políticas, métodos actor-crítico, PPO, DDPG, y SAC. Este módulo pregunta cómo esas ideas se convierten en código funcional. Una implementación de RL profundo no es solo un bucle de entrenamiento de redes neuronales. En el aprendizaje supervisado, los datos generalmente se dan en un conjunto de datos fijo. En el aprendizaje por refuerzo, los datos son generados por un agente interactuando con un entorno. Esto significa que la implementación debe gestionar la interacción con el entorno, la exploración, los modelos de redes neuronales, los optimizadores, los buffers de repetición o buffers de trayectoria, las redes objetivo, el registro, la evaluación, y la reproducibilidad.

Impartido por

Ashutosh Trivedi


Materias

Computer Science