OpenAI · 大模型
OpenAI 发布 Reptile
OpenAI 发布 Reptile,一个让语言模型通过奖励信号自我改进的强化学习算法。它减少了训练中对人类标注数据的依赖,让模型在复杂环境中持续进化。这项工作探索了强化学习与语言模型的深度融合,可能推动大模型从数据驱动预训练转向信号驱动的持续学习。
- 域名
openai.com- 评分
- 5 · 重大发布
- 发布
- 2026-05-02
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
OpenAI · 大模型
OpenAI 发布 Reptile,一个让语言模型通过奖励信号自我改进的强化学习算法。它减少了训练中对人类标注数据的依赖,让模型在复杂环境中持续进化。这项工作探索了强化学习与语言模型的深度融合,可能推动大模型从数据驱动预训练转向信号驱动的持续学习。
openai.com这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。