当前位置: 首页 > news >正文

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

MEM:视觉语言动作模型的多尺度具身记忆

头图:“用于短视界图像记忆的高效视频编码器,以及用于捕获长视界记忆的基于语言的记忆机制。”

“在这项工作中,我们的主要见解是,用于长视野机器人控制的有效内存架构应该结合多种模式来捕获这些不同的抽象级别。我们引入了多尺度嵌入记忆(MEM),这是一种在机器人策略中使用混合模式长视野记忆的方法。 MEM 将通过视频编码器压缩的基于视频的短视野内存基于文本的长视野(这个比较好理解看下图2左侧VLM部分)内存相结合。”

“基于这些观察,我们引入了多尺度体现记忆(MEM),这是一种为策略配备多模式、长视野记忆的系统。 MEM 结合了两种关键成分,使长视野记忆变得易于处理。首先,我们使用视频编码器架构将多秒的基于图像的密集内存有效地编码为紧凑的表示。其次,我们引入了一种基于语言的记忆机制,其中策略以压缩语言格式跟踪语义事件。这种记忆系统不仅可以适应非常长的视野任务,还可以通过利用短期记忆来实现各种新功能,例如上下文适应以纠正错误,以及对部分可观察性和自遮挡的恢复能力。”

“我们将动作预测问题分解如下:”

“我们将行动的概率分为低级策略 πLL高级策略 πHL。低级策略对以任务目标 g、较短的观察序列 (K ≪ T ) 和子任务指令 lt+1 为条件的动作序列进行建模。子任务指令又是由高层策略生成的,高层策略不仅以任务目标为条件,而且也是对自然语言中先前语义事件的总结。下面我们将这种总结称为语言记忆。它使我们能够显着减少输入到模型的密集观测值的数量 K ≪ T,而不会牺牲捕获几分钟左右的记忆的能力。”

“我们的架构通过将在每个观察中应用双向空间注意力的层(白色箭头)与在观察中额外应用因果时间注意力操作的层(黑色箭头)交错,扩展了用于编码视频输入的标准 ViT。我们在 ViT 上层中删除过去时间步的观察令牌,以压缩输入并减少传递到 VLA 主干的令牌数量。”

“然后,我们在 ViT 的每第 4 层修改注意力机制,以纳入空间(如 ViT 中的标准)和时间上下文。为了避免在时间和空间上的大量总补丁上进行过于昂贵的联合注意力操作,我们的架构将注意力分解为单独的空间和时间注意力操作。每第 4 层通过使用因果注意掩模(“时间”)对同一图像块的时间步表示进行注意,在时间维度上附加地增加注意力 - 请参阅图 4 的视觉描述”

“这将每层中相应注意力的计算复杂度从 O(n2K2)(对于时间和空间上的朴素注意力)降低到 O(Kn2 + nK2)。最后,为了减少后续 VLA 变压器主干处理的补丁数量,我们仅传递为当前时间步长计算的表示(删除过去时间步中所有补丁的表示)。因此,我们的视频编码器与通常在没有内存的单步 VLA 中传递到 VLA 主干的令牌数量相匹配;我们有效地迫使视频编码器将时间信息合并到为当前观察生成的表示中(通过修改后的注意机制)。

我们的视频编码器的一个关键特性是,与标准的单图像 ViT 相比,它不会引入新的可学习参数。通过修改 ViT 的注意力模式并添加固定的正弦时间位置编码来添加视频编码功能。因此,我们可以根据任何标准视觉语言模型的预训练 ViT 权重来初始化视频编码器的权重,就像在无记忆 VLA 中一样。为了最大化特征传输,我们确保对于 K = 1(即单图像输入),我们的编码器的初始化与 VLM 的初始化完全匹配,这是通过在 t = 0 时值为 0 的正弦时间位置嵌入来实现的。

总之,我们的视频编码器架构允许我们有效地将基于观察的内存扩展到数十秒,而不会在训练或推理期间产生过高的计算开销(图 3),同时允许从预训练的初始化视觉语言模型权重。”

http://www.cnnetsun.cn/news/2569918.html

相关文章:

  • App安全加固与Frida检测原理科普
  • Routiform:构建模块化路由器框架,实现深度自定义与稳定性的平衡
  • 手把手教你用 Gitee 替代 DDNS:家庭 IP 自动更新 + 本地快捷访问
  • 云 PACS 系统全院级影像数字化落地方案
  • 构建数据管道深度监控体系:从质量契约到工程实践
  • Python TDD实战入门:从red-green-refactor到高覆盖率测试套件
  • 从一次CAN总线‘丢帧’排查说起:深入理解扩展帧过滤器的‘列表模式’与‘掩码模式’到底怎么选
  • 用51单片机和MJ-8000模块,做个自己的扫码小助手(附完整代码和接线图)
  • 低成本AI网站审计工具架构:批处理与纯函数设计实现0.03美元单次成本
  • 保姆级教程:用STM32F103驱动TM1620数码管,从看懂手册到点亮第一个数字
  • DeepSeek评估被90%团队忽略的关键漏洞:上下文长度突变下的稳定性崩塌(附自动化检测脚本)
  • Excel时间计算底层原理:序列号机制与[h]:mm格式解析
  • 硬件在环(HIL)测试入门:如何用自制的60通道万能BOB盒搭建你的第一个汽车ECU测试台架?
  • AArch64虚拟化调试:HDFGWTR2_EL2寄存器原理与应用
  • Godot4节点生命周期与GDScript交互开发入门
  • AMD Ryzen处理器深度调优解决方案:SMUDebugTool实战指南与原理剖析
  • 为什么架构师越老越值钱?越陈越香的IT界茅台
  • 基于RAG与向量数据库构建代码库智能问答系统
  • C#游戏物理引擎的SIMD向量加速实战
  • 告别外设不足:用MCP2517FD给ESP32或树莓派Pico扩展CAN FD接口实战
  • PMP考试选机构,守住“双授权+本地考场”两条红线!
  • 从西门子/欧姆龙转过来?台达DVP50MC11T Modbus寻址的‘异类’解读
  • 4-20mA回路供电显示模块设计:低功耗高精度工业仪表方案
  • Unity多人游戏架构解析:GC2+Photon的权衡与裂缝
  • Excel频率分布四大方法实战指南:FREQUENCY、透视表、分析工具库与COUNTIFS深度对比
  • 机器学习在热电材料发现中的应用:数据分割与特征选择策略
  • SAP财务凭证替代避坑指南:从VF01销售发票到MIRO发票校验,AC_DOCUMENT BADI的字段映射与性能考量
  • vshell:面向红队实战的命令执行与会话管理框架
  • 基于规则引擎的AI代码生成:构建可靠后端服务的实践
  • Android 12 ART符号隐藏与Frida Hook适配实战