OpenAI · 训练

OpenAI 提出动作依赖因子化基线方法降低策略梯度方差

OpenAI 提出一种动作依赖的因子化基线方法，用于降低策略梯度算法中的方差。该方法通过将基线分解为与动作相关的因子，在不引入偏差的前提下更有效地减少梯度估计的波动，从而提升强化学习训练的稳定性和样本效率。论文给出了理论分析和实验验证，在连续控制任务上展示了优于传统基线方法的表现。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。