Ce que vous devez savoir avant
Vous commencez

Débute 9 June 2026 08:30

Se termine 9 June 2026

00 Jours
00 Heures
00 Minutes
00 Secondes
course image

Présentation de Terminal-Bench - Évaluation des Agents LLM dans des Environnements Réalistes de Terminal

Découvrez Terminal-Bench, un benchmark exigeant pour évaluer les agents LLM dans des environnements réels de terminal, comblant les lacunes des méthodes actuelles d'évaluation des agents.
Anyscale via YouTube

Anyscale

6076 Cours


31 minutes

Amélioration optionnelle disponible

Not Specified

Progressez à votre rythme

Free Video

Amélioration optionnelle disponible

Aperçu

Discover Terminal-Bench, a challenging benchmark for evaluating LLM agents in real-world terminal environments, addressing gaps in current agent evaluation methods.


Matières

Artificial Intelligence