arXiv · 大模型
研究团队提出通用偏好强化学习框架
当前大模型后训练阶段存在两条割裂的技术路线:在线强化学习依赖可编程验证器,在数学和代码任务上表现突出,但无法覆盖开放域任务;偏好优化则能处理开放任务,却缺少在线探索带来的推理能力提升。这项研究提出通用偏好强化学习框架,试图将两条路线统一到一个框架下,让模型在开放任务中也能获得类似在线强化学习的推理增益。
- 域名
arxiv.org- 评分
- 5 · 重大发布
- 发布
- 2026-05-18
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
原文摘要
Post-training has split large language model (LLM) alignment into two largely disconnected tracks. Online reinforcement learning (RL) with verifiable rewards drives emergent reasoning on math and code but depends on a programmatic verifier that cannot reach open-ended tasks, while preference optimi…
