(资料图)

编程客栈()7月31日 消息:谷歌 DeepMinandroidd 推出全新的视觉 - 语言 - 动作模型(VLA),命名为 Robotic Transformer2(RT-2)。这个模型可以与机器人互动,通过php学习网络和机器人数据,将知识转化为有效的指令。

RT-2是 RT-1的升级版,基于 Transformer 构建,具有更好的性能和泛化能力。RT-2还在一系列的定性和定量实验中展示出惊人的学习和理解能力,能够执行基本推理和多阶段的语义推理。通过与思维链推理结合,RT-2可以学习长期规划和低级技能,执行更复杂的命令。

研究人员观察到,与之前的基线模型相比,RT-2的泛化性能提高了3倍以上。RT-2的成功展示了视觉语言模型转化为视觉语言动作模型编程客栈的潜力,为构建通用实体机器人提供了前景。

论文地址:https:/python/robotics-transformer2.github.io/assets/rt2.pdf

推荐内容