Anthropic · 评测

Anthropic 发布 Claude Sonnet 在 SWE-bench 上的评测结果

Anthropic 公开了 Claude Sonnet 在 SWE-bench 软件工程基准上的表现数据。SWE-bench 是衡量大模型解决真实 GitHub issue 能力的权威测试，此次评测展示了 Sonnet 在代码修复、补丁生成等任务中的准确率与效率。结果有助于开发者评估模型在实际软件开发场景中的可用性，也为后续模型优化提供了参考基线。

域名: anthropic.com
评分: 3 · 可关注
发布: 2024-12-19

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest