DeepMind · 大模型

DeepMind 发布 RT-2 视觉-语言-动作模型

DeepMind 推出 RT-2 模型，将视觉与语言理解直接转化为机器人动作指令。该模型基于大规模互联网图文数据训练，无需针对每个任务单独采集专属演示数据，即可让机器人执行从未见过的操作。RT-2 在零样本泛化能力上显著超越此前方法，为具身智能提供了一条从海量网络知识到物理世界的高效迁移路径。

导读

这条暂时没有深度导读，点上方「访问项目本体」直接到源页面查看。