OpenAI · 评测
OpenAI 发布 Paperbench 论文理解评测基准
OpenAI 推出 Paperbench,一个专门评估语言模型对学术论文理解深度的评测基准。该基准包含数百道题目覆盖数学、物理、计算机科学等多个领域,要求模型不仅读懂论文内容,还能进行推理、比较和批判性分析。Paperbench 的发布为衡量模型在科研场景下的真实能力提供了新标尺。
- 域名
openai.com- 评分
- 4 · 重要更新
- 发布
- 2026-05-02
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。