Anthropic · 评测

Anthropic 发布 Swe Bench Sonnet 评测结果

Anthropic 公布了 Claude Sonnet 在 SWE-bench 上的评测表现。该基准测试聚焦软件工程任务，评估模型在真实代码仓库中解决 GitHub issue 的能力。Sonnet 在多项指标上展现出竞争力，为开发者提供了衡量编程助手实际效用的参考。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。