Anthropic · 评测

Anthropic 发布 Swe Bench Sonnet 评测结果

Anthropic 公布了 Claude Sonnet 在 SWE-bench 上的评测表现。该基准测试聚焦软件工程任务,评估模型在真实代码仓库中解决 GitHub issue 的能力。Sonnet 在多项指标上展现出竞争力,为开发者提供了衡量编程助手实际效用的参考。

域名
anthropic.com
评分
4 · 重要更新
发布
2025-03-19
Anthropic 发布 Swe Bench Sonnet 评测结果

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。