HuggingFace Papers · 视频生成模型

VideoSeeker 通过原生 agent 工具调用提升视频实例级理解能力

VideoSeeker 提出一种新框架,将视频理解任务与原生 agent 工具调用深度结合。它通过激励模型主动调用外部工具(如目标检测、跟踪、OCR 等),在推理过程中获取实例级细粒度信息,从而显著提升对视频中物体、动作和时序关系的理解准确率。该方法在多个视频 QA 数据集上取得领先成绩,为视频模型与 agent 系统的融合提供了新思路。

域名
huggingface.co
评分
4 · 重要更新
收录
2026-05-19
VideoSeeker 通过原生 agent 工具调用提升视频实例级理解能力

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。