OpenAI · 安全

OpenAI 发布基于规则奖励的模型安全行为改进方法

OpenAI 提出一种基于规则奖励的方法来提升模型的安全行为。该方法通过定义明确的规则集,对模型输出进行奖励或惩罚,从而引导模型在保持有用性的同时更严格地遵守安全准则。这项研究为对齐问题提供了一种可扩展的解决方案,有望减少模型产生有害或不当内容的可能性。

域名
openai.com
评分
5 · 重大发布
发布
2026-05-02
OpenAI 发布基于规则奖励的模型安全行为改进方法

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。