HuggingFace Papers · Agent

AtlasVA 提出自进化视觉技能记忆机制用于无教师 VLM Agent

AtlasVA 提出一种自进化的视觉技能记忆机制,让视觉语言模型 agent 无需教师信号即可持续积累和调用视觉技能。该方法将视觉经验编码为可复用的技能模块,agent 在任务中自主识别关键视觉模式并更新记忆库,从而提升泛化能力。实验表明,AtlasVA 在多个视觉推理基准上显著优于固定提示或静态记忆的基线方法,为构建更自主的视觉 agent 提供了新思路。

域名
huggingface.co
评分
4 · 重要更新
收录
2026-05-19
AtlasVA 提出自进化视觉技能记忆机制用于无教师 VLM Agent

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。