arXiv · 大模型

研究团队提出通用偏好强化学习框架

当前大模型后训练阶段存在两条割裂的技术路线：在线强化学习依赖可编程验证器，在数学和代码任务上表现突出，但无法覆盖开放域任务；偏好优化则能处理开放任务，却缺少在线探索带来的推理能力提升。这项研究提出通用偏好强化学习框架，试图将两条路线统一到一个框架下，让模型在开放任务中也能获得类似在线强化学习的推理增益。

域名: arxiv.org
评分: 5 · 重大发布
发布: 2026-05-18

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

原文摘要

Post-training has split large language model (LLM) alignment into two largely disconnected tracks. Online reinforcement learning (RL) with verifiable rewards drives emergent reasoning on math and code but depends on a programmatic verifier that cannot reach open-ended tasks, while preference optimi…

Back to Latest