OpenAI · 安全
OpenAI 发布 Deliberative Alignment 对齐方法
OpenAI 提出 Deliberative Alignment,一种让模型在推理过程中主动进行安全对齐的新方法。不同于传统依赖后处理或微调的安全策略,该方法使模型在生成回答前,先通过链式思考对自身输出进行安全审查,从而在保持有用性的同时显著降低有害内容生成率。这项研究为构建更可靠的大模型提供了新的技术路径。
- 域名
openai.com- 评分
- 5 · 重大发布
- 发布
- 2026-05-15
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。