Qué necesitas saber antes de
comenzar

Inicio 1 July 2026 10:07

Fin 1 July 2026

00 Días
00 Horas
00 Minutos
00 Segundos
course image

Dominando los algoritmos clásicos de aprendizaje por refuerzo

Explora los fundamentos matemáticos del aprendizaje por refuerzo, cubriendo los procesos de decisión de Markov, la programación dinámica, Q-learning y SARSA para resolver problemas de toma de decisiones finitos utilizando métodos tabulares.
University of Colorado Boulder via Coursera

University of Colorado Boulder

40 Cursos


La Universidad de Colorado Boulder, a menudo referida como CU Boulder, ofrece una amplia gama de programas educativos y cursos, tanto presenciales como en línea. Los estudiantes pueden elegir entre una variedad de pistas de estudio, incluyendo cursos de artes, ciencias, ingeniería, negocios y más.

Cursos en línea de la Universidad de Colorado Boulder

Una de las principales ventajas de CU Boulder es la posibilidad de tomar cursos en línea. Esta es una excelente oportunidad para los estudiantes que desean una educación de calidad pero prefieren flexibilidad en su horario. Los cursos en línea de CU Boulder brindan acceso a profesores altamente calificados y los materiales más actualizados.

Cursos de verano en la Universidad de Colorado Boulder

El verano es un excelente momento para explorar nuevos temas y expandir tus conocimientos. La Universidad de Colorado Boulder ofrece una variedad de cursos de verano, tanto en línea como presenciales. Esta es una excelente oportunidad para que los estudiantes pasen su verano productivamente estudiando temas de interés.

Mejores cursos de CU Boulder para estudiantes

CU Boulder no solo ofrece una amplia variedad de programas, sino también una educación de alta calidad. Los estudiantes pueden elegir entre una variedad de cursos, desde básicos hasta avanzados, para desarrollar sus habilidades e intereses. La universidad utiliza activamente enfoques innovadores para la enseñanza, como la Educación IA, que ayuda a los estudiantes a adquirir conocimientos actualizados.

Cursos en CU Boulder: Más con Clases Gratuitas

Con una variedad de cursos gratuitos en CU Boulder, los estudiantes pueden expandir sus conocimientos en una variedad de áreas. Estos cursos están disponibles tanto para principiantes como para estudiantes avanzados, permitiendo a todos encontrar una opción de formación adecuada a sus intereses.

Ventajas de estudiar cursos en línea en la Universidad de Colorado Boulder

La Universidad de Colorado Boulder brinda a los estudiantes una oportunidad única para estudiar a través de cursos en línea, lo cual tiene una serie de ventajas significativas.

En primer lugar, la ventaja de estudiar cursos en línea en la Universidad de Colorado Boulder es el horario flexible. Los estudiantes pueden elegir su propio tiempo para estudiar el material y ver las conferencias, lo que facilita el equilibrio de sus estudios con otras responsabilidades, como el trabajo o los compromisos familiares. Esta flexibilidad hace que la educación sea más accesible para un rango más amplio de personas.

En segundo lugar, los cursos de la Universidad de Colorado Boulder brindan a los estudiantes la oportunidad de estudiar material único presentado por profesores experimentados. A través del acceso a expertos en varios campos del conocimiento, los estudiantes pueden adquirir conocimientos y habilidades relevantes que serán útiles en el mundo moderno.

El tercer beneficio de tomar cursos en línea de CU Boulder es la oportunidad de conectarse y colaborar con otros estudiantes de diferentes países y culturas. Esto contribuye a una enriquecedora experiencia educativa al permitir que los estudiantes se expongan a diferentes puntos de vista y amplíen sus horizontes.

Además, los cursos en línea de la Universidad de Colorado Boulder suelen ofrecer una variedad de materiales de aprendizaje interactivos, lo que hace que el proceso de aprendizaje sea más divertido y efectivo. Los estudiantes pueden aprender a través de videoconferencias, pruebas, foros y otros métodos innovadores que estimulan el aprendizaje.

Por lo tanto, tomar cursos en línea de la Universidad de Colorado Boulder ofrece a los estudiantes muchos beneficios, incluyendo programación flexible, acceso a expertos, comunicación internacional y un enfoque educativo interactivo. Esta es una excelente oportunidad para que los estudiantes reciban una educación de calidad, expandan sus conocimientos y habilidades, y se preparen para los desafíos del mundo moderno.

Conclusión

La Universidad de Colorado Boulder es un lugar donde los estudiantes pueden recibir una educación de calidad con una variedad de cursos y programas para elegir. Ya sea que estés buscando formación en línea o presencial, cursos de verano o programas gratuitos, CU Boulder ofrece amplias oportunidades para el desarrollo y el aprendizaje!

5 weeks, 3 hours a week

Actualización opcional disponible

Intermedio

Avanza a tu propio ritmo

Paid Course

Actualización opcional disponible

Resumen

How can an agent learn to make good decisions through repeated interaction with an uncertain environment? This course introduces the mathematical and algorithmic foundations of classical reinforcement learning, with an emphasis on finite Markov decision processes and tabular methods.

The course begins with the simplest settings in which the central ideas are clearest:

deterministic decision processes, discounted rewards, and Bellman optimality equations. It then introduces stochasticity through Markov chains and Markov decision processes, where learners study policies, value functions, expected discounted reward, and dynamic programming.

With this foundation in place, the course turns to planning methods for known models, including value iteration, policy iteration, and linear programming formulations. The second half of the course studies reinforcement learning when the model is unknown and the agent must learn from sampled experience.

Topics include multi-armed bandits, exploration and exploitation, Monte Carlo methods, temporal-difference learning, SARSA, Q-learning, and convergence principles. The course ends with a final assessment in which learners solve the same finite MDP from both model-based planning and model-free learning perspectives.

By the end of the course, learners will be able to formulate finite decision-making problems as Markov decision processes, solve them using classical planning algorithms, and implement tabular reinforcement-learning algorithms from sampled data. This course provides the foundation for later study of deep reinforcement learning, reward programming, and trustworthy AI systems.

This course can be taken for academic credit as part of CU Boulder’s Masters of Science in Computer Science (MS-CS) and Master of Science in Artificial Intelligence (MS-AI) degrees offered on the Coursera platform. These fully accredited graduate degrees offer targeted courses, short 8-week sessions, and pay-as-you-go tuition.

Admission is based on performance in three preliminary courses, not academic history. CU degrees on Coursera are ideal for recent graduates or working professionals.

Learn more:

MS in Artificial Intelligence:

https:

//www.coursera.org/degrees/ms-artificial-intelligence-boulder MS in Computer Science:

https:

//coursera.org/degrees/ms-computer-science-boulder

Programa

  • Procesos de Decisión Determinísticos
  • Este módulo introduce los fundamentos de modelado y optimización para la toma de decisiones secuencial en su forma más simple: procesos de decisión determinísticos con recompensas descontadas. Comenzamos con estados, acciones, transiciones y recompensas como un lenguaje para representar problemas de decisión a lo largo del tiempo. Luego desarrollamos funciones de valor y ecuaciones de Bellman como herramientas para optimizar el retorno a largo plazo. El objetivo es construir una intuición sobre por qué la programación dinámica es correcta en el entorno más simple de procesos de decisión determinísticos antes de introducir transiciones estocásticas, aprender de la experiencia muestreada y el bootstrap en módulos posteriores.
  • Cadenas de Markov y Procesos de Decisión de Markov
  • Este módulo agrega estocasticidad a la imagen determinística desarrollada en el módulo anterior. Los estudiantes continúan con el ejemplo del cuestionario sorpresa, ahora con resultados inciertos: estudiar usualmente ayuda pero no siempre, y relajarse puede reducir la preparación pero no siempre lo hace. El módulo primero introduce transiciones estocásticas como distribuciones de probabilidad sobre los siguientes estados, luego estudia cadenas de Markov como sistemas estocásticos sin elecciones y finalmente agrega acciones para obtener procesos de decisión de Markov. El objetivo es hacer que la recompensa descontada esperada, las políticas y las ecuaciones de Bellman se sientan como extensiones naturales del entorno determinístico.
  • Programación Dinámica en MDPs
  • Este módulo se centra en la optimización de modelos conocidos. Los estudiantes usan ecuaciones de Bellman como herramientas computacionales para la evaluación de políticas, mejora de políticas, iteración de valor, iteración de políticas y formulaciones de programación lineal de MDPs descontados.
  • Aprendizaje a partir de la Experiencia Muestreada
  • Este módulo comienza la transición de la planificación al aprendizaje por refuerzo. En la planificación, el modelo MDP es conocido y los respaldos de Bellman calculan expectativas exactamente. En el aprendizaje por refuerzo, el modelo es reemplazado por la experiencia muestreada. Los estudiantes primero ven el aprendizaje por refuerzo como programación dinámica basada en muestras, luego estudian recompensas, incertidumbre, interacción agente-entorno, estimación de bandido, exploración versus explotación, evaluación de políticas con Monte Carlo, y control con Monte Carlo.
  • Control, Exploración y Algoritmos de Aprendizaje por Refuerzo Tabular
  • Este módulo completa la parte de aprendizaje por refuerzo tabular del Curso 1. El Módulo 4 introdujo el aprendizaje basado en muestras a través de bandidos y métodos de Monte Carlo. El Módulo 5 introduce el aprendizaje por diferencia temporal: actualizar después de una transición muestreada combinando una recompensa observada con una estimación de valor bootstrap. El módulo termina resumiendo el aprendizaje por refuerzo tabular y motivando la transición a la aproximación de funciones y el aprendizaje por refuerzo profundo.

Impartido por

Ashutosh Trivedi


Materias

Computer Science