Anthropic · 安全
Anthropic 发布 Constitutional AI 从 AI 反馈中学习无害性研究
Anthropic 发布了 Constitutional AI 系列的最新研究,聚焦如何利用 AI 自身的反馈来训练模型遵循无害性原则。该方法通过一组预定义的宪法准则,让模型在生成过程中自我评估并修正有害输出,从而减少对人类标注的依赖。这项工作为可扩展的对齐技术提供了新思路,有望在保持模型能力的同时提升安全性。
- 域名
anthropic.com- 评分
- 4 · 重要更新
- 发布
- 2024-12-19
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
