Anthropic · 安全

Anthropic 发布基于人类反馈的强化学习训练安全助手研究

Anthropic 公开了使用人类反馈强化学习来训练既乐于助人又无害的 AI 助手的研究成果,论文详细阐述了如何在奖励建模阶段引入无害性约束,并通过迭代偏好数据收集,在保持模型实用性的同时减少有害输出。该方法为当前主流大模型的对齐训练提供了关键理论基础,也奠定了此后多轮 RLHF 安全优化实验的原始框架。

域名
anthropic.com
评分
5 · 重大发布
发布
2024-12-19
Anthropic 发布基于人类反馈的强化学习训练安全助手研究

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。