Anthropic · 安全

Anthropic 发布 Automated Alignment Researchers 研究

Anthropic 发布 Automated Alignment Researchers 研究,探索用 AI 系统自动执行对齐研究任务。该项目旨在让语言模型自主设计并运行实验,以发现和修复其他模型的安全漏洞,减少对人类研究者的依赖。Anthropic 认为,自动化对齐研究可能是应对未来超级智能对齐挑战的关键路径。

域名
anthropic.com
评分
5 · 重大发布
发布
2026-04-14
Anthropic 发布 Automated Alignment Researchers 研究

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。