Anthropic · 评测

Anthropic 推出 BioMysteryBench 评估 Claude 生物信息学能力

Anthropic 发布 BioMysteryBench,一个专门用于评估大语言模型在生物信息学领域推理能力的基准测试。该基准包含从序列比对到基因组注释的多样化任务,旨在衡量 Claude 等模型在真实科研场景中的表现。初步结果显示,Claude 在部分任务上接近专家水平,但在复杂多步骤分析中仍有提升空间。这一工作为 AI 辅助生物医学研究提供了更细致的评估工具。

域名
anthropic.com
评分
4 · 重要更新
发布
2026-04-30

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。