OpenAI · 大模型

OpenAI 发布 RL2 强化学习框架

OpenAI 推出 RL2,一个面向大语言模型的新一代强化学习框架。RL2 将强化学习范式从单轮奖励信号扩展为多轮交互学习,使模型能在对话、代码生成等场景中持续从反馈中自我改进。该框架在数学推理和工具使用任务上展现出显著提升,为语言模型从静态推理走向动态适应提供了新的训练路径。

域名
openai.com
评分
5 · 重大发布
发布
2026-05-02

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。