HuggingFace Papers · 评测

多模态 LLM 在临床评分中表现出集中趋势偏差

一篇新论文系统性地审计了多模态大语言模型作为临床评分器时的表现，发现它们普遍存在集中趋势偏差——倾向于给出中间分数而非极端值。研究通过设计临床序数评分任务，揭示了 GPT-4V 等模型在医学影像评估中的系统性偏差，为将 LLM 用于自动化临床评分提供了重要的校准依据。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。