当前位置：首页 > news >正文

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

news 2026/6/4 4:07:39

MEM：视觉语言动作模型的多尺度具身记忆

头图：“用于短视界图像记忆的高效视频编码器，以及用于捕获长视界记忆的基于语言的记忆机制。”

“在这项工作中，我们的主要见解是，用于长视野机器人控制的有效内存架构应该结合多种模式来捕获这些不同的抽象级别。我们引入了多尺度嵌入记忆（MEM），这是一种在机器人策略中使用混合模式长视野记忆的方法。 MEM 将通过视频编码器压缩的基于视频的短视野内存与基于文本的长视野（这个比较好理解看下图2左侧VLM部分）内存相结合。”

“基于这些观察，我们引入了多尺度体现记忆（MEM），这是一种为策略配备多模式、长视野记忆的系统。 MEM 结合了两种关键成分，使长视野记忆变得易于处理。首先，我们使用视频编码器架构将多秒的基于图像的密集内存有效地编码为紧凑的表示。其次，我们引入了一种基于语言的记忆机制，其中策略以压缩语言格式跟踪语义事件。这种记忆系统不仅可以适应非常长的视野任务，还可以通过利用短期记忆来实现各种新功能，例如上下文适应以纠正错误，以及对部分可观察性和自遮挡的恢复能力。”

“我们将动作预测问题分解如下：”

“我们将行动的概率分为低级策略 πLL和高级策略 πHL。低级策略对以任务目标 g、较短的观察序列 (K ≪ T ) 和子任务指令 lt+1 为条件的动作序列进行建模。子任务指令又是由高层策略生成的，高层策略不仅以任务目标为条件，而且也是对自然语言中先前语义事件的总结。下面我们将这种总结称为语言记忆。它使我们能够显着减少输入到模型的密集观测值的数量 K ≪ T，而不会牺牲捕获几分钟左右的记忆的能力。”

“我们的架构通过将在每个观察中应用双向空间注意力的层（白色箭头）与在观察中额外应用因果时间注意力操作的层（黑色箭头）交错，扩展了用于编码视频输入的标准 ViT。我们在 ViT 上层中删除过去时间步的观察令牌，以压缩输入并减少传递到 VLA 主干的令牌数量。”

“然后，我们在 ViT 的每第 4 层修改注意力机制，以纳入空间（如 ViT 中的标准）和时间上下文。为了避免在时间和空间上的大量总补丁上进行过于昂贵的联合注意力操作，我们的架构将注意力分解为单独的空间和时间注意力操作。每第 4 层通过使用因果注意掩模（“时间”）对同一图像块的时间步表示进行注意，在时间维度上附加地增加注意力 - 请参阅图 4 的视觉描述”

“这将每层中相应注意力的计算复杂度从 O(n2K2)（对于时间和空间上的朴素注意力）降低到 O(Kn2 + nK2)。最后，为了减少后续 VLA 变压器主干处理的补丁数量，我们仅传递为当前时间步长计算的表示（删除过去时间步中所有补丁的表示）。因此，我们的视频编码器与通常在没有内存的单步 VLA 中传递到 VLA 主干的令牌数量相匹配；我们有效地迫使视频编码器将时间信息合并到为当前观察生成的表示中（通过修改后的注意机制）。

我们的视频编码器的一个关键特性是，与标准的单图像 ViT 相比，它不会引入新的可学习参数。通过修改 ViT 的注意力模式并添加固定的正弦时间位置编码来添加视频编码功能。因此，我们可以根据任何标准视觉语言模型的预训练 ViT 权重来初始化视频编码器的权重，就像在无记忆 VLA 中一样。为了最大化特征传输，我们确保对于 K = 1（即单图像输入），我们的编码器的初始化与 VLM 的初始化完全匹配，这是通过在 t = 0 时值为 0 的正弦时间位置嵌入来实现的。

总之，我们的视频编码器架构允许我们有效地将基于观察的内存扩展到数十秒，而不会在训练或推理期间产生过高的计算开销（图 3），同时允许从预训练的初始化视觉语言模型权重。”

查看全文

http://www.cnnetsun.cn/news/2569918.html