Anthropic · 评测

Anthropic 发布 Claude Sonnet 在 SWE-bench 上的评测结果

Anthropic 公开了 Claude Sonnet 在 SWE-bench 软件工程基准上的表现数据。SWE-bench 是衡量大模型解决真实 GitHub issue 能力的权威测试,此次评测展示了 Sonnet 在代码修复、补丁生成等任务中的准确率与效率。结果有助于开发者评估模型在实际软件开发场景中的可用性,也为后续模型优化提供了参考基线。

域名
anthropic.com
评分
3 · 可关注
发布
2024-12-19
Anthropic 发布 Claude Sonnet 在 SWE-bench 上的评测结果

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。