DeepMind · 训练

DeepMind 提出超越平均奖励的强化学习方法

DeepMind 发表一项强化学习研究,旨在超越传统平均奖励优化目标。新方法可能在面对稀疏奖励或高风险场景时提供更稳健的策略,目前尚处于理论验证阶段,但为 RL 训练提供了新的视角。

域名
deepmind.google
评分
4 · 重要更新
发布
2026-03-04

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。