DeepMind · 训练

DeepMind 提出超越平均奖励的强化学习方法

DeepMind 发表一项强化学习研究，旨在超越传统平均奖励优化目标。新方法可能在面对稀疏奖励或高风险场景时提供更稳健的策略，目前尚处于理论验证阶段，但为 RL 训练提供了新的视角。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。