OpenAI · 安全

OpenAI 发布 Deliberative Alignment 对齐方法

OpenAI 提出 Deliberative Alignment,一种让模型在推理过程中主动进行安全对齐的新方法。不同于传统依赖后处理或微调的安全策略,该方法使模型在生成回答前,先通过链式思考对自身输出进行安全审查,从而在保持有用性的同时显著降低有害内容生成率。这项研究为构建更可靠的大模型提供了新的技术路径。

域名
openai.com
评分
5 · 重大发布
发布
2026-05-15

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。