3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑

　　新智元报道

　　编辑：LRS 好困

　　具身基础模型突破 2D，全新生成式视觉-语言-行动模型 3D-VLA，在多项任务中显著提高了推理、多模态生成和规划的能力。

　　在最近的研究中，视觉-语言-动作（VLA，vision-language-action）模型的输入基本都是 2D 数据，没有集成更通用的 3D 物理世界。

　　此外，现有的模型通过学习「感知到动作的直接映射」来进行动作预测，忽略了世界的动态性，以及动作和动态之间的关系。

　　相比之下，人类在思考时会引入世界模型，可以描绘除对未来情景的想象，从而对下一步的行动进行规划。

　　为此，来自马萨诸塞州大学阿默斯特分校、MIT 等机构的研究人员提出了 3D-VLA 模型，通过引入一类全新的具身基础模型（embodied foundation models），可以根据生成的世界模型无缝连接 3D 感知、推理和行动。

　　项目主页：https://vis-www.cs.umass.edu/3dvla/

　　论文地址：https://arxiv.org/abs/2403.09631

　　具体而言，3D-VLA 构建在基于 3D 的大型语言模型（LLM）之上，并引入一组交互 token 来参与具身环境中。

　　为了将生成能力注入模型，淦创团队训练了一系列具身扩散模型，并将其对齐到 LLM 中以预测目标图像和点云。

　　为了对 3D-VLA 模型进行训练，通过从现有的机器人数据集中提取大量的 3D 相关信息来构建出一个大规模的 3D 具身指令数据集。

　　实验结果表明，3D-VLA 显着提高了在具身环境中推理、多模态生成和规划的能力，展示出其在现实世界中的应用潜力。

　　三维具身指令调整数据集（3D Embodied Instruction Tuning Dataset）

　　得益于互联网上数十亿规模的数据集，VLM 在各种任务中表现出了非凡的性能，百万级的视频动作数据集也为机器人控制的具身 VLM 奠定了基础。

　　但当前的数据集大多不能在机器人操作中提供深度或 3D 标注和精确控制，需要包含 3D 空间推理和交互：如果没有 3D 信息，机器人很难理解和执行需要 3D 空间推理的命令，比如「把最远的杯子放在中间的抽屉里」。

　　为了弥补这一差距，研究人员构建了一个大规模的 3D 指令调优数据集，该数据集提供了足够的「3D 相关信息」以及「相应的文本指令」以训练模型。

　　研究人员设计了一个 pipeline 从现有的具身数据集中提取 3D 语言动作对，获得点云、深度图、3D 边界框、机器人的 7D 动作和文本描述的标注。

　　3D-VLA 基础模型

　　3D-VLA 是一个用于在具身环境（embodied environment）中进行三维推理、目标生成和决策的世界模型。

　　首先在 3D-LLM 之上构建主干网络，并通过添加一系列交互 token 来进一步增强模型与 3D 世界交互的能力；再通过预训练扩散模型并使用投影来对齐 LLM 和扩散模型，将目标生成能力注入 3D-VLA

　　骨干网络

　　在第一阶段，研究人员按照 3D-LLM 的方法开发 3D-VLA 基础模型：由于收集到的数据集没有达到从头开始训练多模态 LLM 所需的十亿级规模，因此需要利用多视图特征生成 3D 场景特征，使得视觉特征能够无缝集成到预训练 VLM 中，不需要自适应。

　　同时，3D-LLM 的训练数据集主要包括对象（objects）和室内场景，与具体设置不直接一致，所以研究人员选择使用 BLIP2-PlanT5XL 作为预训练模型。

　　在训练过程中，解冻 token 的输入和输出嵌入，以及Q-Former 的权重。

　　交互 tokens

　　为了增强模型对 3D 场景的理解与环境中的交互，研究人员引入了一组全新的交互 tokens

　　首先，输入中加入了 object tokens，包含解析句子中的对象名词（如 a chocolate bar [loc tokens] on the table），这样模型就能更好地捕捉到被操作或提及的对象。

　　其次，为了更好地用语言表达空间信息，研究人员设计了一组位置 token ，用 AABB 形式的六个标记来表示三维边界框。

　　第三，为了更好地进行动态编码，框架中引入了来包含静态场景的嵌入：通过对场景 token 进行组合，3D-VLA 可以理解动态场景，并管理交错三维场景和文本的输入。

　　通过扩展代表机器人动作的专用标记集，进一步增强了该架构。机器人的动作有 7 个自由度，用、和等离散 token 来表示手臂的预定绝对位置、旋转和抓手张开度，每个 action 由 EP> token 进行分隔。

　　注入目标生成能力

　　人类能够对场景的最终状态进行预先可视化（pre-visualize），以提升动作预测或决策的准确性，也是构建世界模型的关键方面；在初步实验中，研究人员还发现提供真实的最终状态可以增强模型的推理和规划能力。

　　但训练 MLLM 来生成图像、深度和点云并不简单：

　　首先，视频扩散模型并不是为具身场景量身定制的，比如 Runway 在生成「打开抽屉」的未来帧时，场景中会发生视图变化、对象变形、怪异的纹理替换以及布局失真等问题。

　　并且，如何将各种模态的扩散模型整合到一个单一的基础模型中仍然是一个难题。

　　所以研究人员提出的新框架，首先根据图像、深度和点云等不同形式对具体的扩散模型进行预训练，然后在对齐阶段将扩散模型的解码器对齐到 3D-VLA 的嵌入空间。

　　实验结果

　　3D-VLA 是一个多功能的、基于 3D 的生成式世界模型，可以在 3D 世界中执行推理和定位、想象多模态目标内容，并为机器人操作生成动作，研究人员主要从三个方面对 3D-VLA 进行了评估：3D 推理和定位、多模态目标生成和具身行动规划。

　　3D 推理和定位

　　3D-VLA 在语言推理任务上优于所有 2D VLM 方法，研究人员将其归因于 3D 信息的杠杆作用，3D 信息为推理提供了更准确的空间信息。

　　此外，由于数据集中包含一组 3D 定位标注，3D-VLA 学习定位相关对象，有助于模型更专注于关键对象进行推理。

　　研究人员发现 3D-LLM 在这些机器人推理任务中表现不佳，证明了在机器人相关的 3D 数据集上收集和训练的必要性。

　　并且 3D-VLA 在定位性能方面表现出明显优于 2D 基线方法，这一发现也为标注过程的有效性提供了令人信服的证据，有助于模型获得强大的 3D 定位能力。

　　多模态目标生成

　　与现有的零样本迁移到机器人领域的生成方法相比，3D-VLA 在大多数指标方面实现了更好的性能，证实了使用「专门为机器人应用设计的数据集」来训练世界模型的重要性。

　　即使在与 Instruct-P2P*的直接比较中，3D-VLA 也始终性能更优，结果表明，将大型语言模型集成到 3D-VLA 中可以更全面、更深刻地理解机器人操作指令，从而提高目标图像生成性能。

　　此外，当从输入提示符中排除预测的边界框时，可以观察到性能略有下降，证实了使用中间预测边界框的有效性，可以帮助模型理解整个场景，允许模型将更多的注意力分配到给定指令中提到的特定对象，最终增强其想象最终目标图像的能力。

　　点云生成的结果对比中，具有中间预测边界框的 3D-VLA 性能最好，证实了在理解指令和场景的背景下结合大型语言模型和精确对象定位的重要性。

　　具身行动规划

　　3D-VLA 在 RLBench 动作预测中的大多数任务中超过了基线模型的性能，显示了其具有规划能力。

　　值得注意的是，基线模型需要用到历史观察、对象状态和当前状态信息，而 3D-VLA 模型只通过开环控制执行。

　　此外，模型的泛化能力在捡杯（pick-up-cup）任务中得到了证明，3D-VLA 在 CALVIN 中也取得了较好的结果，研究人员将这种优势归因于定位感兴趣的对象和想象目标状态的能力，为推断动作提供了丰富的信息。

　　参考资料：

　　https://vis-www.cs.umass.edu/3dvla/

新开传奇私服

传奇私服发布网

3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑

新开传奇私服

传奇私服发布网

3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑

你可能感兴趣的