DeepMind · 评测

DeepMind 发布 Facts Benchmark Suite 评估大语言模型事实性

DeepMind 推出 Facts Benchmark Suite,一个系统性评估大语言模型事实性的基准。该套件包含多维度事实性测试任务,覆盖知识边界、一致性、时效性等方面,并引入长上下文与多轮对话下的持续检核机制,旨在为模型的事实可控性提供可重复的度量方法。基准已开放给研究社区,支持模型开发者对照评测自身系统的真实性表现。

域名
deepmind.google
评分
4 · 重要更新
发布
2026-03-03

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。