Anthropic · 安全

Anthropic 提出 Influence Functions 用于溯源大模型输出行为

Anthropic 发布了一项名为 Influence Functions 的研究方法，能够追溯大模型的具体行为归因于哪些训练数据。该方法通过影响函数量化每条样本对模型输出的贡献度，从而帮助开发者识别导致有害输出的源头。相比传统的归因手段，Influence Functions 在计算效率与可解释性上均有提升，为模型安全审计与数据质量控制提供了新的技术路径。

域名: anthropic.com
评分: 4 · 重要更新
发布: 2024-12-19

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest