Anthropic · 安全
Anthropic 发布基于人类反馈的强化学习训练安全助手研究
Anthropic 公开了使用人类反馈强化学习来训练既乐于助人又无害的 AI 助手的研究成果,论文详细阐述了如何在奖励建模阶段引入无害性约束,并通过迭代偏好数据收集,在保持模型实用性的同时减少有害输出。该方法为当前主流大模型的对齐训练提供了关键理论基础,也奠定了此后多轮 RLHF 安全优化实验的原始框架。
- 域名
anthropic.com- 评分
- 5 · 重大发布
- 发布
- 2024-12-19
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
