Anthropic · 安全

Anthropic 发布 Automated Alignment Researchers 研究

Anthropic 发布 Automated Alignment Researchers 研究，探索用 AI 系统自动执行对齐研究任务。该项目旨在让语言模型自主设计并运行实验，以发现和修复其他模型的安全漏洞，减少对人类研究者的依赖。Anthropic 认为，自动化对齐研究可能是应对未来超级智能对齐挑战的关键路径。

域名: anthropic.com
评分: 5 · 重大发布
发布: 2026-04-14

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest