HuggingFace Papers · 评测

TOBench 发布面向真实工具使用的全模态 Agent 评测基准

TOBench 是一个面向真实世界工具使用的全模态评测基准，专门评估 agent 在多模态环境下调用 API、操作界面和执行复杂任务的能力。该基准覆盖图像、文本、音频等多种输入形式，并设计了贴近实际应用场景的任务集，旨在弥补现有评测在工具使用深度和模态多样性上的不足。研究者可通过该基准更全面地衡量 agent 在真实交互中的表现。

域名: huggingface.co
评分: 4 · 重要更新
收录: 2026-05-19

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest