Anthropic · 评测

Anthropic 发布 Agent 自主性评测方法

Anthropic 提出了一套量化 agent 自主性的评测框架，从任务分解、工具调用频率到纠错能力等多个维度评估 AI 系统的独立运作程度。该研究旨在为开发者提供可复现的指标，帮助区分简单指令执行与真正自主决策之间的界限，对 agent 安全部署和监管具有参考价值。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。