Anthropic · 评测

Anthropic 发布 Agent 自主性评测方法

Anthropic 提出了一套量化 agent 自主性的评测框架,从任务分解、工具调用频率到纠错能力等多个维度评估 AI 系统的独立运作程度。该研究旨在为开发者提供可复现的指标,帮助区分简单指令执行与真正自主决策之间的界限,对 agent 安全部署和监管具有参考价值。

域名
anthropic.com
评分
4 · 重要更新
发布
2026-02-19
Anthropic 发布 Agent 自主性评测方法

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。