Anthropic · 大模型

Anthropic 研究发现大语言模型大多能判断自身知识边界

Anthropic 发表了一项关于大语言模型自我认知能力的研究，系统性地分析了模型是否知道自己知道什么。研究发现，LLM 能够可靠地区分已知与未知信息，即使训练数据中存在大量相似内容，模型在应对不确定性问题时仍能给出合理的自信度评估。该工作对提升 AI 对齐与可靠性具有重要意义。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。