Anthropic · 安全

Anthropic 发布 Values Wild 价值观对齐研究

Anthropic 发布了一项名为 Values Wild 的研究,旨在探索如何让 AI 系统在复杂、开放的真实场景中更好地与人类价值观对齐。该研究通过引入多样化的价值观场景和对抗性测试,评估并提升模型在道德困境中的判断一致性。这项工作为构建更安全、更可控的 AI 系统提供了新的方法论基础。

域名
anthropic.com
评分
5 · 重大发布
发布
2025-11-20
Anthropic 发布 Values Wild 价值观对齐研究

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。