OpenAI · 大模型

OpenAI 发布 RL2 强化学习框架

OpenAI 推出 RL2，一个面向大语言模型的新一代强化学习框架。RL2 将强化学习范式从单轮奖励信号扩展为多轮交互学习，使模型能在对话、代码生成等场景中持续从反馈中自我改进。该框架在数学推理和工具使用任务上展现出显著提升，为语言模型从静态推理走向动态适应提供了新的训练路径。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。