Anthropic · 安全
Anthropic 发布 Automated Alignment Researchers 研究
Anthropic 发布 Automated Alignment Researchers 研究,探索用 AI 系统自动执行对齐研究任务。该项目旨在让语言模型自主设计并运行实验,以发现和修复其他模型的安全漏洞,减少对人类研究者的依赖。Anthropic 认为,自动化对齐研究可能是应对未来超级智能对齐挑战的关键路径。
- 域名
anthropic.com- 评分
- 5 · 重大发布
- 发布
- 2026-04-14
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。