Ce que vous devez savoir avant
Vous commencez
Débute 9 June 2026 08:30
Se termine 9 June 2026
Présentation de Terminal-Bench - Évaluation des Agents LLM dans des Environnements Réalistes de Terminal
Anyscale
6076 Cours
31 minutes
Amélioration optionnelle disponible
Not Specified
Progressez à votre rythme
Free Video
Amélioration optionnelle disponible
Aperçu
Discover Terminal-Bench, a challenging benchmark for evaluating LLM agents in real-world terminal environments, addressing gaps in current agent evaluation methods.
Matières
Artificial Intelligence