OpenAI · 安全

OpenAI 发布基于规则奖励的模型安全行为改进方法

OpenAI 提出一种基于规则奖励的方法来提升模型的安全行为。该方法通过定义明确的规则集，对模型输出进行奖励或惩罚，从而引导模型在保持有用性的同时更严格地遵守安全准则。这项研究为对齐问题提供了一种可扩展的解决方案，有望减少模型产生有害或不当内容的可能性。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。