HuggingFace Papers · 视频生成模型
VideoSeeker 通过原生 agent 工具调用提升视频实例级理解能力
VideoSeeker 提出一种新框架,将视频理解任务与原生 agent 工具调用深度结合。它通过激励模型主动调用外部工具(如目标检测、跟踪、OCR 等),在推理过程中获取实例级细粒度信息,从而显著提升对视频中物体、动作和时序关系的理解准确率。该方法在多个视频 QA 数据集上取得领先成绩,为视频模型与 agent 系统的融合提供了新思路。
- 域名
huggingface.co- 评分
- 4 · 重要更新
- 收录
- 2026-05-19
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。