Anthropic · 安全

Anthropic 发布 Constitutional AI 从 AI 反馈中学习无害性研究

Anthropic 发布了 Constitutional AI 系列的最新研究，聚焦如何利用 AI 自身的反馈来训练模型遵循无害性原则。该方法通过一组预定义的宪法准则，让模型在生成过程中自我评估并修正有害输出，从而减少对人类标注的依赖。这项工作为可扩展的对齐技术提供了新思路，有望在保持模型能力的同时提升安全性。

域名: anthropic.com
评分: 4 · 重要更新
发布: 2024-12-19

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest