OpenAI · 安全

OpenAI 研究通过忏悔机制提升语言模型诚实性

OpenAI 提出一种名为“忏悔”的机制，让语言模型在生成回答前主动反思并修正可能的不实信息。该方法不依赖外部知识库或额外训练，而是通过模型自身的推理链引入自我纠错步骤。实验表明，忏悔机制能显著降低幻觉率，同时保持回答的流畅性和有用性。这一方向为提升 LLM 可信度提供了轻量级的新思路。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。