OpenAI · 训练

OpenAI 提出动作依赖因子化基线方法降低策略梯度方差

OpenAI 提出一种动作依赖的因子化基线方法,用于降低策略梯度算法中的方差。该方法通过将基线分解为与动作相关的因子,在不引入偏差的前提下更有效地减少梯度估计的波动,从而提升强化学习训练的稳定性和样本效率。论文给出了理论分析和实验验证,在连续控制任务上展示了优于传统基线方法的表现。

域名
openai.com
评分
4 · 重要更新
发布
2026-05-02
OpenAI 提出动作依赖因子化基线方法降低策略梯度方差

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。