Anthropic · 安全
Anthropic 发布 Values Wild 价值观对齐研究
Anthropic 发布了一项名为 Values Wild 的研究,旨在探索如何让 AI 系统在复杂、开放的真实场景中更好地与人类价值观对齐。该研究通过引入多样化的价值观场景和对抗性测试,评估并提升模型在道德困境中的判断一致性。这项工作为构建更安全、更可控的 AI 系统提供了新的方法论基础。
- 域名
anthropic.com- 评分
- 5 · 重大发布
- 发布
- 2025-11-20
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
