OpenAI · 安全

OpenAI 发布 Deliberative Alignment 对齐方法

OpenAI 提出 Deliberative Alignment，一种让模型在推理过程中主动进行安全对齐的新方法。不同于传统依赖后处理或微调的安全策略，该方法使模型在生成回答前，先通过链式思考对自身输出进行安全审查，从而在保持有用性的同时显著降低有害内容生成率。这项研究为构建更可靠的大模型提供了新的技术路径。

域名: openai.com
评分: 5 · 重大发布
发布: 2026-05-15

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest