HuggingFace Papers · 大模型

AR-VLA 提出适用于视觉-语言-行动模型的自回归行动专家

AR-VLA 将行动预测建模为自回归生成任务,用于视觉-语言-行动模型。该方法使模型在复杂环境中做出更连贯精准的决策。实验显示,AR-VLA 在多项机器人操控和导航 benchmark 上获得明显提升,为具身智能体提供了更稳定的行动推理方式。

域名
huggingface.co
评分
5 · 重大发布
收录
2026-05-19
AR-VLA 提出适用于视觉-语言-行动模型的自回归行动专家

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。