PaLM-E架构——由PaLM（语言模型）和ViT（视觉模型）组成-行业数据

您的当前位置：上海品茶 > 行业数据 > PaLM-E架构——由PaLM（语言模型）和ViT（视觉模型）组成

PaLM-E架构——由PaLM（语言模型）和ViT（视觉模型）组成原图定位

PaLM-E：将自主可靠决策和多模态感知相结合 PaLM-E 将多模态大模型拓展至机器人领域，可生成决策文本。2023 年 3 月，Google 和柏林工业大学的研发团队推出通用多模态大模型 PaLM-E。该模型融合了 Google 当时最新的大型语言模型 PaLM 和最先进的视觉模型 ViT-22B，可以结合传统运控算法执行复杂的机器人任务。PaLM-E 大模型的输入端是连续的、可感知的数据，包括视觉、连续状态估计值和文本等多模态信息。多模态信息以类似于语言序列的方式输入到语言模型 PaLM 中，使其可以理解这些连续数据，从而能够基于现实世界做出合理判断。PaLM-E 是一个仅具有解码器的语言模型，可以自动地根据前缀或提示生成文本结果。