Qué necesitas saber antes de
comenzar

Inicio 8 June 2026 07:15

Fin 8 June 2026

00 Días
00 Horas
00 Minutos
00 Segundos
course image

Razonamiento Agéntico con Aprendizaje por Refuerzo

Explore cómo el ajuste fino por refuerzo mejora el razonamiento agencial en modelos de lenguaje de gran escala, utilizando Wordle como banco de pruebas para demostrar un razonamiento estructurado sobre el emparejamiento de patrones.
DevConf via YouTube

DevConf

6076 Cursos


15 minutes

Actualización opcional disponible

Not Specified

Avanza a tu propio ritmo

Free Video

Actualización opcional disponible

Resumen

Explore how reinforcement fine-tuning enhances agentic reasoning in large language models, using Wordle as a testbed to demonstrate structured reasoning over pattern matching.


Materias

Computer Science