HuggingFace Papers · 大模型

StableVLA 提出无需额外数据的视觉-语言-动作模型

StableVLA 是一篇新论文，提出了一种无需额外数据就能训练出鲁棒视觉-语言-动作模型的方法。传统方法依赖大量标注数据，而 StableVLA 通过改进训练策略和模型架构，在多个机器人操控基准上达到与需要额外数据的方法相当甚至更好的性能。这项工作有望降低机器人学习和多模态模型的门槛。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。