RT-2输出字符串可直接对应到机器人的坐标、旋转角等信息 原图定位 是将机器人动作表示为另一种语言,即文本 token,并与 Web 规模的视觉-语言数据集一起训练。代表机器人动作的文本字符串可以是机器人动作 token 编号的序列,例如「1 128 91 241 5 101 127 217」,该字符串以一个标志开始,该标志指示机器人是继续还是终止当前情节,然后机器人根据指示改变末端执行器的位置和旋转以及机器人抓手等命令。由于动作被表示为文本字符串,因此机器人执行动作命令就像执行字符串命令一样简单。这种表示方式允许谷歌对现有的视觉-语言模型进行微调,并将其转换为视觉-语言-动作模型。