Anthropic · 安全
Anthropic 提出 Influence Functions 用于溯源大模型输出行为
Anthropic 发布了一项名为 Influence Functions 的研究方法,能够追溯大模型的具体行为归因于哪些训练数据。该方法通过影响函数量化每条样本对模型输出的贡献度,从而帮助开发者识别导致有害输出的源头。相比传统的归因手段,Influence Functions 在计算效率与可解释性上均有提升,为模型安全审计与数据质量控制提供了新的技术路径。
- 域名
anthropic.com- 评分
- 4 · 重要更新
- 发布
- 2024-12-19
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
