HuggingFace Papers · 视频生成模型

VideoSeeker 通过原生 agent 工具调用提升视频实例级理解能力

VideoSeeker 提出一种新框架，将视频理解任务与原生 agent 工具调用深度结合。它通过激励模型主动调用外部工具（如目标检测、跟踪、OCR 等），在推理过程中获取实例级细粒度信息，从而显著提升对视频中物体、动作和时序关系的理解准确率。该方法在多个视频 QA 数据集上取得领先成绩，为视频模型与 agent 系统的融合提供了新思路。

域名: huggingface.co
评分: 4 · 重要更新
收录: 2026-05-19

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest