Anthropic · 安全

Anthropic 发布 Values Wild 价值观对齐研究

Anthropic 发布了一项名为 Values Wild 的研究，旨在探索如何让 AI 系统在复杂、开放的真实场景中更好地与人类价值观对齐。该研究通过引入多样化的价值观场景和对抗性测试，评估并提升模型在道德困境中的判断一致性。这项工作为构建更安全、更可控的 AI 系统提供了新的方法论基础。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。