Anthropic · 安全
Anthropic 发布自我反省能力研究 Introspection
Anthropic 发布名为 Introspection 的研究成果,让 AI 模型在输出答案前审视自身推理链并修正错误。该方法使模型能够发现自身逻辑漏洞与事实偏差,显著提升了输出的事实准确性和推理一致性。这项工作为构建更可靠、更可控的大语言模型提供了新的对齐思路。
- 域名
anthropic.com- 评分
- 5 · 重大发布
- 发布
- 2025-11-20
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。