Anthropic · 安全
Anthropic 推出集体宪法 AI 方法以对齐语言模型
Anthropic 发布集体宪法 AI 研究,探索如何将公众意见融入语言模型的行为规范中。该方法通过收集广泛人群的偏好,形成一套集体性的原则来约束模型输出,旨在让 AI 对齐过程更民主而不仅依赖开发者。这一尝试为大模型的安全治理提供了新的社会技术路径。
- 域名
anthropic.com- 评分
- 4 · 重要更新
- 发布
- 2025-11-20
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
Anthropic · 安全
Anthropic 发布集体宪法 AI 研究,探索如何将公众意见融入语言模型的行为规范中。该方法通过收集广泛人群的偏好,形成一套集体性的原则来约束模型输出,旨在让 AI 对齐过程更民主而不仅依赖开发者。这一尝试为大模型的安全治理提供了新的社会技术路径。
anthropic.com这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。