Anthropic · 安全

Anthropic 发布基于人类反馈的强化学习训练安全助手研究

Anthropic 公开了使用人类反馈强化学习来训练既乐于助人又无害的 AI 助手的研究成果，论文详细阐述了如何在奖励建模阶段引入无害性约束，并通过迭代偏好数据收集，在保持模型实用性的同时减少有害输出。该方法为当前主流大模型的对齐训练提供了关键理论基础，也奠定了此后多轮 RLHF 安全优化实验的原始框架。

域名: anthropic.com
评分: 5 · 重大发布
发布: 2024-12-19

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest