Qué necesitas saber antes de
comenzar
Inicio 13 June 2026 16:52
Fin 13 June 2026
Presentamos Terminal-Bench: Evaluación de Agentes LLM en Configuraciones Realistas de Terminal.
Anyscale
6077 Cursos
31 minutes
Actualización opcional disponible
Not Specified
Avanza a tu propio ritmo
Free Video
Actualización opcional disponible
Resumen
Discover Terminal-Bench, a challenging benchmark for evaluating LLM agents in real-world terminal environments, addressing gaps in current agent evaluation methods.
Materias
Artificial Intelligence