AgentBench

AgentBench v0.2 is a benchmark designed to evaluate Large Language Models as agents across a diverse set of environments, enhancing framework usabilit

Author: community

Open source post

What was done

AgentBench v0.2 is a benchmark designed to evaluate Large Language Models as agents across a diverse set of environments, enhancing framework usability and extending model evaluations

Stack

Python

Similar use cases

VoiceTest - Voice Agent Test Harness0 votes

voicetest0 votes

Open-RAG-Eval0 votes

Voice Lab0 votes

AgentBench

What was done

Stack

Share

Similar use cases