Qué necesitas saber antes de
comenzar

Inicio 13 June 2026 16:52

Fin 13 June 2026

00 Días
00 Horas
00 Minutos
00 Segundos
course image

Presentamos Terminal-Bench: Evaluación de Agentes LLM en Configuraciones Realistas de Terminal.

Descubre Terminal-Bench, un exigente punto de referencia para evaluar agentes LLM en entornos terminales del mundo real, abordando las lagunas en los métodos actuales de evaluación de agentes.
Anyscale via YouTube

Anyscale

6077 Cursos


31 minutes

Actualización opcional disponible

Not Specified

Avanza a tu propio ritmo

Free Video

Actualización opcional disponible

Resumen

Discover Terminal-Bench, a challenging benchmark for evaluating LLM agents in real-world terminal environments, addressing gaps in current agent evaluation methods.


Materias

Artificial Intelligence