DeepMind · 评测

DeepMind 发布 Facts Benchmark Suite 评估大语言模型事实性

DeepMind 推出 Facts Benchmark Suite，一个系统性评估大语言模型事实性的基准。该套件包含多维度事实性测试任务，覆盖知识边界、一致性、时效性等方面，并引入长上下文与多轮对话下的持续检核机制，旨在为模型的事实可控性提供可重复的度量方法。基准已开放给研究社区，支持模型开发者对照评测自身系统的真实性表现。

域名: deepmind.google
评分: 4 · 重要更新
发布: 2026-03-03

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest