Anthropic · 安全

Anthropic 发布 Constitutional AI 从 AI 反馈中学习无害性研究

Anthropic 发布了 Constitutional AI 系列的最新研究,聚焦如何利用 AI 自身的反馈来训练模型遵循无害性原则。该方法通过一组预定义的宪法准则,让模型在生成过程中自我评估并修正有害输出,从而减少对人类标注的依赖。这项工作为可扩展的对齐技术提供了新思路,有望在保持模型能力的同时提升安全性。

域名
anthropic.com
评分
4 · 重要更新
发布
2024-12-19
Anthropic 发布 Constitutional AI 从 AI 反馈中学习无害性研究

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。