HuggingFace Papers · 评测

TOBench 发布面向真实工具使用的全模态 Agent 评测基准

TOBench 是一个面向真实世界工具使用的全模态评测基准,专门评估 agent 在多模态环境下调用 API、操作界面和执行复杂任务的能力。该基准覆盖图像、文本、音频等多种输入形式,并设计了贴近实际应用场景的任务集,旨在弥补现有评测在工具使用深度和模态多样性上的不足。研究者可通过该基准更全面地衡量 agent 在真实交互中的表现。

域名
huggingface.co
评分
4 · 重要更新
收录
2026-05-19
TOBench 发布面向真实工具使用的全模态 Agent 评测基准

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。