HuggingFace Papers · 大模型

LiteFrame 提出高效视觉编码器，推动视频大模型帧扩展

LiteFrame 针对视频大模型计算成本随帧数增长过快的问题，设计了一种轻量视觉编码器。它通过空间-时间分解与渐进式特征融合，在保持高保真度前提下将可处理的帧数提升数倍。实验表明，采用 LiteFrame 后视频问答与长视频理解的准确率显著提高，而推理延迟仅小幅增加。这项工作为多帧视频理解提供了一条实用路径。

域名: huggingface.co
评分: 4 · 重要更新
收录: 2026-05-19

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest