Qué necesitas saber antes de
comenzar

Inicio 21 July 2026 14:18

Fin 21 July 2026

00 Días

00 Horas

00 Minutos

00 Segundos

Registrarse

Dominando los algoritmos clásicos de aprendizaje por refuerzo

Explora los fundamentos matemáticos del aprendizaje por refuerzo, cubriendo los procesos de decisión de Markov, la programación dinámica, Q-learning y SARSA para resolver problemas de toma de decisiones finitos utilizando métodos tabulares.

University of Colorado Boulder via Coursera

5 weeks, 3 hours a week

Actualización opcional disponible

Intermedio

Avanza a tu propio ritmo

Paid Course

Actualización opcional disponible

Resumen

How can an agent learn to make good decisions through repeated interaction with an uncertain environment? This course introduces the mathematical and algorithmic foundations of classical reinforcement learning, with an emphasis on finite Markov decision processes and tabular methods.

The course begins with the simplest settings in which the central ideas are clearest:

deterministic decision processes, discounted rewards, and Bellman optimality equations. It then introduces stochasticity through Markov chains and Markov decision processes, where learners study policies, value functions, expected discounted reward, and dynamic programming.

With this foundation in place, the course turns to planning methods for known models, including value iteration, policy iteration, and linear programming formulations. The second half of the course studies reinforcement learning when the model is unknown and the agent must learn from sampled experience.

Topics include multi-armed bandits, exploration and exploitation, Monte Carlo methods, temporal-difference learning, SARSA, Q-learning, and convergence principles. The course ends with a final assessment in which learners solve the same finite MDP from both model-based planning and model-free learning perspectives.

By the end of the course, learners will be able to formulate finite decision-making problems as Markov decision processes, solve them using classical planning algorithms, and implement tabular reinforcement-learning algorithms from sampled data. This course provides the foundation for later study of deep reinforcement learning, reward programming, and trustworthy AI systems.

This course can be taken for academic credit as part of CU Boulder’s Masters of Science in Computer Science (MS-CS) and Master of Science in Artificial Intelligence (MS-AI) degrees offered on the Coursera platform. These fully accredited graduate degrees offer targeted courses, short 8-week sessions, and pay-as-you-go tuition.

Admission is based on performance in three preliminary courses, not academic history. CU degrees on Coursera are ideal for recent graduates or working professionals.

Learn more:

MS in Artificial Intelligence:

https:

//www.coursera.org/degrees/ms-artificial-intelligence-boulder MS in Computer Science:

https:

//coursera.org/degrees/ms-computer-science-boulder

Programa

Procesos de Decisión Determinísticos

Este módulo introduce los fundamentos de modelado y optimización para la toma de decisiones secuencial en su forma más simple: procesos de decisión determinísticos con recompensas descontadas. Comenzamos con estados, acciones, transiciones y recompensas como un lenguaje para representar problemas de decisión a lo largo del tiempo. Luego desarrollamos funciones de valor y ecuaciones de Bellman como herramientas para optimizar el retorno a largo plazo. El objetivo es construir una intuición sobre por qué la programación dinámica es correcta en el entorno más simple de procesos de decisión determinísticos antes de introducir transiciones estocásticas, aprender de la experiencia muestreada y el bootstrap en módulos posteriores.

Cadenas de Markov y Procesos de Decisión de Markov

Este módulo agrega estocasticidad a la imagen determinística desarrollada en el módulo anterior. Los estudiantes continúan con el ejemplo del cuestionario sorpresa, ahora con resultados inciertos: estudiar usualmente ayuda pero no siempre, y relajarse puede reducir la preparación pero no siempre lo hace. El módulo primero introduce transiciones estocásticas como distribuciones de probabilidad sobre los siguientes estados, luego estudia cadenas de Markov como sistemas estocásticos sin elecciones y finalmente agrega acciones para obtener procesos de decisión de Markov. El objetivo es hacer que la recompensa descontada esperada, las políticas y las ecuaciones de Bellman se sientan como extensiones naturales del entorno determinístico.

Programación Dinámica en MDPs

Este módulo se centra en la optimización de modelos conocidos. Los estudiantes usan ecuaciones de Bellman como herramientas computacionales para la evaluación de políticas, mejora de políticas, iteración de valor, iteración de políticas y formulaciones de programación lineal de MDPs descontados.

Aprendizaje a partir de la Experiencia Muestreada

Este módulo comienza la transición de la planificación al aprendizaje por refuerzo. En la planificación, el modelo MDP es conocido y los respaldos de Bellman calculan expectativas exactamente. En el aprendizaje por refuerzo, el modelo es reemplazado por la experiencia muestreada. Los estudiantes primero ven el aprendizaje por refuerzo como programación dinámica basada en muestras, luego estudian recompensas, incertidumbre, interacción agente-entorno, estimación de bandido, exploración versus explotación, evaluación de políticas con Monte Carlo, y control con Monte Carlo.

Control, Exploración y Algoritmos de Aprendizaje por Refuerzo Tabular

Este módulo completa la parte de aprendizaje por refuerzo tabular del Curso 1. El Módulo 4 introdujo el aprendizaje basado en muestras a través de bandidos y métodos de Monte Carlo. El Módulo 5 introduce el aprendizaje por diferencia temporal: actualizar después de una transición muestreada combinando una recompensa observada con una estimación de valor bootstrap. El módulo termina resumiendo el aprendizaje por refuerzo tabular y motivando la transición a la aproximación de funciones y el aprendizaje por refuerzo profundo.

Impartido por

Ashutosh Trivedi

Materias

Computer Science

Qué necesitas saber antes de
comenzar

Dominando los algoritmos clásicos de aprendizaje por refuerzo

Cursos en línea de la Universidad de Colorado Boulder

Cursos de verano en la Universidad de Colorado Boulder

Mejores cursos de CU Boulder para estudiantes

Cursos en CU Boulder: Más con Clases Gratuitas

Ventajas de estudiar cursos en línea en la Universidad de Colorado Boulder

Conclusión

5 weeks, 3 hours a week

Intermedio

Paid Course

Resumen

Programa

Impartido por

Materias

Qué necesitas saber antes de comenzar

Dominando los algoritmos clásicos de aprendizaje por refuerzo

Cursos en línea de la Universidad de Colorado Boulder

Cursos de verano en la Universidad de Colorado Boulder

Mejores cursos de CU Boulder para estudiantes

Cursos en CU Boulder: Más con Clases Gratuitas

Ventajas de estudiar cursos en línea en la Universidad de Colorado Boulder

Conclusión

5 weeks, 3 hours a week

Intermedio

Paid Course

Resumen

Programa

Impartido por

Materias

IA para Automatización y Modelado de FP&A

FP&A con IA: Proyecto de Fin de Carrera

IA generativa para PLN con PyTorch

Ingeniero de Aprendizaje Automático: Modelos de ML y Aprendizaje Profundo

Preparación de Datos y Aprendizaje Automático Aplicado

Fundamentos del Aprendizaje por Reforzamiento

Qué necesitas saber antes de
comenzar