Google AI · 其他

Google DeepMind 发布 RT-2 机器人 VLA 模型

Google DeepMind 发布 RT-2 视觉-语言-行动模型，将互联网预训练的视觉语言知识直接迁移到机器人动作指令中。该模型以 transformer 架构为核心，将机器人动作离散为 token 并纳入文本空间训练，实现了对未见于训练数据中的物体和新场景的零样本泛化抓取与搬运。RT-2 融合了 PaLM-E 和 PaLI 系列的视觉语言能力，让机器人不再依赖特定物体的预定义动作集，而是借助大语言模型的语义理解实时生成动作序列。这一方向为通用机器人的现实部署提供了新的可能性。

域名: blog.google
评分: 5 · 重大发布
发布: 2026-01-07

访问项目本体

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。

Back to Latest