HuggingFace Papers · 评测

CHI-Bench 发布:评估 AI Agent 自动化医疗工作流的基准

CHI-Bench 是一个面向 AI agent 的新型基准测试,专门评估其在自动化端到端、长周期且政策密集的医疗工作流方面的能力。该基准覆盖临床决策、保险审批、病历管理等复杂流程,要求 agent 理解多步规则并做出合规判断。相比现有基准多聚焦单一任务,CHI-Bench 更贴近真实医疗机构中需要跨系统协作、长时间跟踪的实际场景,为医疗领域 agent 的落地提供了一个更有意义的评测标准。

域名
huggingface.co
评分
4 · 重要更新
收录
2026-05-19
CHI-Bench 发布:评估 AI Agent 自动化医疗工作流的基准

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。