HuggingFace Papers · 评测

CHI-Bench 发布：评估 AI Agent 自动化医疗工作流的基准

CHI-Bench 是一个面向 AI agent 的新型基准测试，专门评估其在自动化端到端、长周期且政策密集的医疗工作流方面的能力。该基准覆盖临床决策、保险审批、病历管理等复杂流程，要求 agent 理解多步规则并做出合规判断。相比现有基准多聚焦单一任务，CHI-Bench 更贴近真实医疗机构中需要跨系统协作、长时间跟踪的实际场景，为医疗领域 agent 的落地提供了一个更有意义的评测标准。

域名: huggingface.co
评分: 4 · 重要更新
收录: 2026-05-19

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest