OpenAI · 评测

OpenAI 发布 Paperbench 论文理解评测基准

OpenAI 推出 Paperbench，一个专门评估语言模型对学术论文理解深度的评测基准。该基准包含数百道题目覆盖数学、物理、计算机科学等多个领域，要求模型不仅读懂论文内容，还能进行推理、比较和批判性分析。Paperbench 的发布为衡量模型在科研场景下的真实能力提供了新标尺。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。