OpenAI · 评测

OpenAI 不再使用 SWE-bench Verified 评估模型

OpenAI 宣布停止在 SWE-bench Verified 上评估其模型,理由是这一基准已无法有效区分不同模型在真实软件工程任务上的能力差距。随着模型在 SWE-bench 上的得分普遍饱和,OpenAI 认为继续使用该基准既无助于指导研发方向,也可能误导外界对模型实际编程水平的判断。这一决定反映了行业对现有代码生成评测体系局限性的共识,也预示着更贴近真实开发场景的评估标准正在被需要。

域名
openai.com
评分
3 · 可关注
发布
2026-05-01

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。