Anthropic · 评测

Anthropic 发布 Eval Awareness Browsecomp 评测

Anthropic 推出 Eval Awareness Browsecomp,一项针对浏览器自动化 agent 的评测基准。该基准旨在衡量 agent 在执行网页浏览任务时对自身评估能力的感知程度,即能否在操作过程中识别并报告自身的不确定性或错误。Browsecomp 通过模拟真实网页交互场景,测试 agent 在信息检索、表单填写等任务中的自我监控与纠错能力,为浏览器自动化 agent 的可靠性评估提供了新的视角。

域名
anthropic.com
评分
4 · 重要更新
发布
2026-03-18
Anthropic 发布 Eval Awareness Browsecomp 评测

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。