PaLM-E架构——由PaLM(语言模型)和ViT(视觉模型)组成 原图定位 PaLM-E:将自主可靠决策和多模态感知相结合 PaLM-E 将多模态大模型拓展至机器人领域,可生成决策文本。2023 年 3 月,Google 和柏林工业大学的研发团队推出通用多模态大模型 PaLM-E。该模型融合了 Google 当时最新的大型语言模型 PaLM 和最先进的视觉模型 ViT-22B,可以结合传统运控算法执行复杂的机器人任务。PaLM-E 大模型的输入端是连续的、可感知的数据,包括视觉、连续状态估计值和文本等多模态信息。多模态信息以类似于语言序列的方式输入到语言模型 PaLM 中,使其可以理解这些连续数据,从而能够基于现实世界做出合理判断。PaLM-E 是一个仅具有解码器的语言模型,可以自动地根据前缀或提示生成文本结果。