Anthropic · 评测
Anthropic 发布 Claude Sonnet 在 SWE-bench 上的评测结果
Anthropic 公开了 Claude Sonnet 在 SWE-bench 软件工程基准上的表现数据。SWE-bench 是衡量大模型解决真实 GitHub issue 能力的权威测试,此次评测展示了 Sonnet 在代码修复、补丁生成等任务中的准确率与效率。结果有助于开发者评估模型在实际软件开发场景中的可用性,也为后续模型优化提供了参考基线。
- 域名
anthropic.com- 评分
- 3 · 可关注
- 发布
- 2024-12-19
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
