当前位置: 首页 > news >正文

π0.7:多模态上下文如何赋能机器人实现组合泛化与跨平台技能迁移

1. 项目概述:当机器人学会“举一反三”

在机器人研究领域,我们一直梦想着能造出一个“通用”的机器人。它不需要为每个新任务重新编程,而是能像人类一样,将已有的知识和技能灵活组合,去应对从未见过的挑战。这种能力,在人工智能领域被称为“组合泛化”。大语言模型(LLM)在这方面已经展现了惊人的潜力,它们能写诗、编程、推理,将学到的词汇和语法以无限种方式组合。然而,当我们将目光转向物理世界,让机器人去操作一个咖啡机、叠一件T恤,这种“组合”能力却变得异常艰难。

传统的机器人视觉-语言-动作模型(VLA)虽然取得了长足进步,但它们更像是一个“熟练工”,而非“发明家”。它们能出色地完成训练中见过的任务,但一旦遇到需要将“打开冰箱”、“取出食物”、“放入微波炉”这几个独立技能串联成一个新任务“加热剩菜”时,往往就力不从心了。更常见的情况是,即使对于训练过的任务,模型的表现也可能不稳定,缺乏人类演示者那样的流畅性和鲁棒性。

π0.7的出现,正是为了突破这一瓶颈。它不是一个全新的架构,而是一套系统性的训练方法论。其核心思想可以概括为:用更丰富、更结构化的“上下文”信息,去“驯服”更庞杂、更“混乱”的训练数据。我们不再只使用完美的人类演示数据,而是大胆地引入了机器人自主执行(包括失败)的数据、来自其他机器人的异构数据,甚至是非机器人来源(如人类第一视角视频)的数据。这些数据质量参差不齐,策略五花八门,如果简单粗暴地喂给模型,只会得到一个表现“平庸”、行为“模糊”的模型——因为它学会了所有策略的平均值。

π0.7的解决方案是,为每一段训练数据都打上详细的“标签”或“注释”,我们称之为多模态上下文。这不仅仅是“做什么”的语言指令,还包括“怎么做”的策略元数据(如执行速度、质量评分、是否出错),以及“做成什么样”的视觉子目标图像。通过这种方式,模型在训练时就能清晰地理解:这段数据展示的是一种快速但可能不稳定的策略,那段数据虽然失败了但揭示了某个关键难点,另一段人类视频则提供了关于物体物理属性的先验知识。

最终,π0.7展现出了接近“组合泛化”的曙光:它能够开箱即用地完成复杂的灵巧操作任务,其性能可与为单一任务专门调优的模型媲美;它能遵循开放式的语言指令,在全新的环境中执行任务;它甚至能将在一个机器人身上学会的技能(如叠衣服),零样本地迁移到形态完全不同的另一个机器人上。这为构建真正通用、鲁棒的机器人智能系统,指明了一条充满希望的道路。

2. 核心设计思路:为何“上下文”是解药?

要理解π0.7的设计,我们需要先看清传统VLA模型训练的核心矛盾:对高质量、同质化数据的依赖,与实现通用性所需的数据多样性之间的矛盾

2.1 传统范式的局限:数据的“洁癖”与模型的“狭隘”

以往训练高性能机器人策略,尤其是基于模仿学习的方法,严重依赖高质量的人类演示数据。这些数据通常由专家操作员通过遥操作精心录制,过程流畅,成功率高。这种做法确保了模型学到的是“正确”的行为模式。然而,它带来了几个根本性问题:

  1. 数据瓶颈与成本:收集大量覆盖所有可能任务和场景的高质量演示数据,成本极高,几乎不可能实现。
  2. 覆盖度有限:演示数据通常只展示了一种(或少数几种)成功的解决路径。模型没有见过失败、纠偏、或次优但可行的策略,导致其在面对微小扰动或新场景时非常脆弱。
  3. 缺乏组合信号:数据通常按任务组织(“做咖啡”、“叠衣服”),模型学习到的是完成这个整体任务的端到端映射。任务内部的子步骤(“抓取手柄”、“按下开关”)及其之间的组合关系没有被显式地建模和暴露给模型。

这就好比只让学生反复背诵几篇范文,却不教他们语法、词汇和修辞手法。学生也许能默写范文,但无法创作新的文章。

2.2 π0.7的破局点:拥抱“混乱”,但赋予“秩序”

π0.7的核心洞见在于:要实现组合泛化,模型必须见识过“多样性”,并且能理解这种多样性背后的“原因”。因此,我们主动引入了多种数据源:

  • 异构机器人数据:来自不同机器人平台(单臂、双臂、移动底座)的数据,它们形态、动力学特性各异。
  • 次优与失败数据:来自自主策略执行的滚动数据,包括强化学习(RL)训练中产生的探索性行为、失败片段。这些数据揭示了任务的边界和难点。
  • 非机器人数据:人类执行任务的自我中心视角视频、互联网上的通用多模态数据。这些数据提供了关于物体功能、物理常识和场景理解的宝贵先验知识。

但简单地混合这些数据是灾难性的。一个学习“抓取杯子”的模型,如果同时看到快速抓取、缓慢抓取、抓取失败以及人类用手抓取的数据,而没有额外信息,它很可能学到一个犹豫不决、动作模糊的平均策略。

这里的“秩序”就是多模态上下文。我们为每一帧训练数据,都构建了一个结构化的提示(Prompt)Ct,它包含:

  • 任务与子任务指令(ℓt, ˆℓt:不仅告诉模型最终目标(“清理厨房”),还告诉它当前步骤的目标(“打开冰箱门”)。这显式地揭示了任务的结构。
  • 子目标图像(gt:以图像形式描绘出执行当前子任务后,场景应该变成什么样子。这提供了比语言更精确、更 grounded 的空间和视觉目标。
  • 片段元数据(m
    • speed: 完成整个任务或片段的速度(离散化,如“2000步”)。
    • quality: 人工标注的执行质量(1-5分)。
    • mistake: 布尔值,标记当前片段是否包含错误。
  • 控制模式(c:指定动作是关节空间命令还是末端执行器空间命令。

这个设计的关键在于:上下文将数据的“多样性”从干扰噪声,转变为了有监督的学习信号。模型不再需要去猜测一段数据为什么这么慢或为什么失败,因为元数据已经告诉它了。在推理时,我们可以通过提示(例如,设置quality=5, mistake=false, speed=fast)来引导模型产生高质量、快速、无错误的行为。这本质上是一种条件生成,模型学会了根据不同的上下文条件,生成相应的行为模式。

2.3 与提示工程的本质区别

这不同于大语言模型中的“提示工程”。后者的提示是面向用户的、用于激发模型已有能力的指令。而π0.7中的多模态上下文,是面向模型训练过程的、不可或缺的监督信号。它是在数据标注阶段就注入的、用于解构和解释数据本身的信息。没有这些上下文,多样化数据就无法被有效利用;有了这些上下文,模型才具备了从复杂数据中提炼可组合技能单元的能力。

3. 模型架构与训练配方详解

π0.7建立在已有的VLA架构之上,主要借鉴了π0.6的基座和MEM的记忆系统,并针对多模态上下文 conditioning 进行了关键增强。

3.1 模型组件拆解

整个模型约50亿参数,主要包括三部分:

  1. 视觉-语言模型(VLM)主干(40亿参数):基于Gemma3 4B模型初始化,负责处理多视角图像历史、子目标图像、语言指令和元数据文本,并生成丰富的场景和任务表征。其视觉编码器同样来自Gemma3,并采用了MEM的时空压缩技术,无论输入多少历史帧,都输出固定数量的token,保证了计算效率。
  2. 记忆(MEM)视频历史编码器:这是处理时序信息的关键。它不是一个独立的模块,而是集成在VLM主干中,专门负责将过去一段时间内(例如前6秒,每秒1帧)的多视角图像序列,压缩编码成一组紧凑的token。这使得模型具备了对动态场景和动作历史的短期记忆能力,对于需要持续跟踪物体状态的长时程任务至关重要。
  3. 动作专家(8.6亿参数):一个相对轻量级的Transformer模块。它“专注”于VLM主干产生的所有激活,并基于流匹配(Flow Matching)目标,预测未来一段时间(如50步,对应1秒)的机器人动作序列。采用流匹配而非扩散模型,主要是为了平衡生成动作的多样性和采样效率。

3.2 输入与注意力机制设计

模型的输入是一个精心组织的序列:[多视角历史图像token] + [多视角子目标图像token] + [任务指令文本token] + [子任务指令文本token] + [元数据文本token] + [控制模式文本token] + [本体感知状态token]

为了高效处理这些异构信息,我们采用了分块因果注意力掩码

  • 图像块内部双向注意力:所有历史图像token之间、所有子目标图像token之间,采用双向注意力,让它们充分交互,形成完整的场景和视觉目标表征。
  • 子目标关注历史:子目标图像token可以“看到”历史图像token,这很合理,因为子目标是基于当前状态设定的未来状态。
  • 文本块因果注意力:随后的所有文本token(指令、元数据等)采用标准的因果注意力(即只能看到前面的token),这是语言模型的典型做法。
  • 动作token双向注意力:动作专家内部的50个动作token之间是双向的,确保生成的动作轨迹在时间上是平滑连贯的。同时,它们可以关注VLM主干的所有输出,从而将高级语义信息转化为具体的运动指令。

这种设计确保了不同类型信息在模型内部以符合其物理意义的方式流动和融合。

3.3 训练数据混合与课程学习

数据是π0.7成功的另一大支柱。我们的训练集是一个“大杂烩”,但混合有方:

  • 核心(~40%):多种机器人平台、多种环境(实验室、模拟家庭、真实家庭)下的大量任务演示数据。
  • 强化与自主数据(~30%):来自之前版本模型(如π*0.6)在RL训练或自主评估中产生的数据。这部分数据质量方差大,但包含了丰富的探索行为和应对意外状态的经验。关键技巧:为这些数据准确标注元数据(如标注出哪些片段是探索导致的低质量,哪些是成功的高效策略)。
  • 人类视频与非机器人数据(~30%):人类执行日常任务的第一视角视频,以及从互联网抓取的多模态数据(用于辅助任务如视觉问答、属性预测)。这些数据不直接提供机器人动作,但通过世界模型(见下文)的桥梁,可以转化为对机器人有用的子目标图像。

训练中的一个重要技巧是随机丢弃(Dropout):在训练时,我们以一定概率随机丢弃上下文中的某些部分(如25%的概率丢弃子目标图像,15%的概率丢弃所有元数据)。这带来了两个好处:

  1. 增强鲁棒性:模型学会不依赖于任何单一的上下文模态,在推理时即使某些信息缺失(例如不提供子目标图像),也能正常工作。
  2. 启用分类器无关引导(CFG):由于模型见过“无条件”(某些上下文缺失)的情况,我们可以在推理时使用CFG技术。例如,我们可以计算“有高质量元数据”和“无元数据”条件下的动作分数之差,并放大这个差值,从而引导模型生成更高质量的动作。

3.4 世界模型:连接非机器人数据的桥梁

子目标图像是强大的引导信号,但为海量数据手工绘制或标注未来的子目标图像是不现实的。为此,我们训练了一个轻量级的世界模型

  • 架构:基于一个经过网络规模数据预训练的图像生成/编辑模型(如BAGEL)进行初始化。这赋予了它强大的视觉常识和物理规律先验。
  • 任务:给定当前观测图像ot、子任务指令ˆℓt和元数据m,预测未来几秒后(通常是当前子任务结束时)的场景图像g⋆t
  • 训练:我们在高质量标注了子任务指令的数据片段上训练这个世界模型,以片段结束时的真实图像作为监督目标。
  • 作用
    1. 生成推理时的子目标:在运行时,由这个世界模型实时生成子目标图像,提供给π0.7。
    2. 知识迁移:世界模型在训练时也混合了人类视频等非机器人数据。它从这些数据中学习“打开抽屉后里面是什么样子”、“切开的蔬菜截面如何”等常识,并通过生成逼真的子目标图像,将这些常识“注入”到π0.7的策略中。这是实现组合泛化的关键一环——模型通过子目标图像,获得了对未知物体进行合理操作的空间想象力。

4. 实操:如何运行与调优π0.7

理论很美好,但最终要落地到机器人上。以下是部署和运行π0.7策略的核心工作流程与实操要点。

4.1 运行时提示配置流程

运行π0.7不是一个简单的“加载模型,输入指令”的过程,而是一个动态的、多模块协作的流水线。其核心算法如下:

# 伪代码示意 def run_pi07_policy(initial_obs, task_instruction): # 初始化 current_obs = initial_obs high_level_policy = load_high_level_language_policy() # 高级语义策略 world_model = load_world_model() pi07_model = load_pi07_model() # 初始提示构建 metadata = {"speed": "fast", "quality": 5, "mistake": False} control_mode = "joint" # 或 "end_effector" # 获取初始子任务和子目标 subtask = high_level_policy.predict(current_obs, task_instruction) subgoal_image = world_model.generate(current_obs, subtask, metadata) context = { "task": task_instruction, "subtask": subtask, "subgoal": subgoal_image, "metadata": metadata, "control_mode": control_mode } last_inference_time = time.now() subgoal_refresh_timer = time.now() SUBGOAL_REFRESH_INTERVAL = 4.0 # 秒 while task_not_complete: # 检查是否需要更新子任务/子目标 new_subtask = high_level_policy.predict(current_obs, task_instruction) if new_subtask != subtask or (time.now() - subgoal_refresh_timer) > SUBGOAL_REFRESH_INTERVAL: subtask = new_subtask # 异步生成新子目标,不阻塞主线程 subgoal_image = world_model.generate_async(current_obs, subtask, metadata) context.update({"subtask": subtask, "subgoal": subgoal_image}) subgoal_refresh_timer = time.now() # 检查是否需要执行新动作块(例如,每执行完N步) if (time.now() - last_inference_time) > ACTION_EXECUTION_INTERVAL: # 使用实时动作分块(RTC)处理推理延迟 # 模型会基于带有模拟延迟的历史观测进行推理 action_chunk = pi07_model.predict(current_obs_with_history, context) execute_action(action_chunk[:H]) # 执行动作块的前H步 last_inference_time = time.now() # 获取最新观测 current_obs = get_current_observation()

关键操作解析与心得

  1. 高级语义策略(High-Level Policy):这不是π0.7本身,而是一个同样基于VLA架构训练的小型模型。它的输入是任务指令和当前观测,输出是下一个子任务指令(如从“清理厨房”到“拿起抹布”)。在实践中,我们可以先用人类教练(Human Coaching)的方式收集数据:人类操作员看着机器人,实时说出子任务指令(“靠近水槽”、“打开水龙头”),机器人执行。然后用这些数据微调一个π0.7的小型版本,作为自动化的高级策略。心得:高级策略不需要像底层策略那样精确,它更关注语义正确性。因此,可以用更少的数据、更短的训练时间获得。

  2. 子目标图像刷新策略:子目标不是一成不变的。我们在两种情况下刷新它:①高级策略输出了新的子任务指令;②距离上次生成子目标已超过Δ秒(论文中Δ=4)。第二种情况是为了应对子任务执行时间过长,或环境发生了未预料变化的情况,确保子目标与当前状态不脱节。心得:Δ是一个重要超参数。设置太短,计算开销大且可能干扰正在进行的动作;设置太长,子目标可能已不相关。需要根据任务节奏调整。

  3. 元数据设置:这是控制机器人行为风格的“旋钮”。

    • speed:通常设置为训练数据中该任务执行时长的第15个百分位数(即比15%的数据快)。这鼓励模型采用较快但可靠的策略,而非最慢最保守的策略。
    • quality:始终设为5(最高)。因为我们总希望得到高质量的执行。
    • mistake:始终设为false。引导模型避免已知的错误模式。心得:在调试时,可以尝试调整speed来平衡速度和成功率。对于非常精细的操作(如插USB线),可以适当降低speed的期望值。
  4. 分类器无关引导(CFG)的应用:这是提升性能的“秘密武器”。在动作去噪的每一步,我们计算有条件(有元数据)和无条件(元数据被丢弃)下的分数差,并用一个权重β(通常1.3到2.2)放大这个差。这强烈地引导生成的动作朝向高质量元数据所指示的分布。实操命令(概念性):

    # 在模型推理循环中 guided_score = conditional_score + beta * (conditional_score - unconditional_score)

    心得:β值需要谨慎调节。太小效果不明显,太大会导致动作过于激进甚至不稳定,产生“对抗性样本”。建议从1.5开始,逐步增加,观察成功率和动作平滑度。

4.2 跨平台部署的注意事项

π0.7在多种机器人(移动双臂、静态双臂、UR5e)上进行了测试。跨平台部署并非完全“即插即用”,需注意:

  • 本体感知状态归一化:不同机器人的关节数量、范围、单位不同。在将关节状态qt输入模型前,必须进行归一化。通常归一化到[-1, 1]区间,基于每个关节的运动学极限。
  • 动作空间映射:模型输出的是归一化的动作(关节角度增量或末端执行器位姿增量)。执行前需要反归一化到当前机器人的实际范围。对于末端执行器控制,需要利用机器人的运动学库进行逆解。
  • 控制频率与延迟补偿:不同机器人控制频率不同(UR5e为20Hz,其他为50Hz)。π0.7训练时使用了实时动作分块(RTC)技术来模拟和补偿高达240ms的推理延迟。在部署时,需要根据实际机器人的控制周期和推理延迟,调整动作块的执行步数ˆHˆH太小会导致动作不连贯,太大则会使策略响应迟钝。
  • 相机标定与视角:模型期望固定的相机视角(如前视、左腕、右腕)。部署新机器人时,需要确保相机安装位置和视角大致相似,并进行精确的内外参标定,使得图像坐标系与机器人基座标系的转换关系准确。

5. 性能评估与结果深度解读

论文中的实验全面评估了π0.7的四大能力:开箱即用的灵巧性、指令泛化、跨具身迁移和组合任务泛化。我们来逐一拆解这些结果背后的含义。

5.1 开箱即用性能:匹敌专家模型

在浓缩咖啡制作、纸箱折叠、衣物折叠等需要高度灵巧和长时程规划的任务上,单一的π0.7模型达到了与为每个任务专门进行强化学习(RL)微调的专家模型(π*0.6)相媲美甚至更优的性能(见图6)。

这意义非凡:传统上,一个通用模型(基础模型)的性能通常远低于针对特定任务精心调优的专家模型。π0.7打破了这一规律。其关键在于:

  • 从专家数据中蒸馏:通过将RL专家的自主执行数据(连同其高质量的元数据)加入训练集,π0.7“蒸馏”了专家的策略。
  • 从失败中学习:失败数据被标记为mistake=true或低quality分数。模型不仅学会了避免这些错误,还因为见过更多样的状态(包括接近失败的状态),而变得更加鲁棒。
  • 元数据的引导:在测试时,通过设置quality=5, mistake=false,我们就像在告诉模型:“请像那些最好的演示一样去执行”。

消融实验的启示(图7)

  • π0.7 (no eval data):性能显著下降。这证明了次优的自主数据并非噪声,而是宝贵的训练资源,前提是它们被正确标注。
  • π0.7 (no metadata):性能下降更明显,尤其是在任务吞吐量(成功次数/小时)上。这强有力地证明了元数据不是可有可无的装饰,而是解耦行为模式、引导高性能输出的关键。没有元数据,模型无法区分高速高质量演示和低速低质量演示,最终表现趋于平庸。

5.2 指令泛化与组合任务泛化

这是“组合泛化”的核心体现。实验显示,π0.7能遵循复杂的、未见过的语言指令,在全新的厨房和卧室环境中执行任务。

  • 案例:烤面包(图5):这个任务不在训练数据中。研究人员通过语言教练,一步步告诉机器人:“用右爪抓住右下角的烤箱旋钮并转动”、“打开烤箱门”、“从头顶橱柜里用右爪拿起白色盘子”、“把百吉饼放在盘子上”。π0.7成功地组合了“抓取旋钮”、“开门”、“抓取物体”、“放置物体”这些基本技能,完成了全新任务。
  • 机制:高级语义策略将“烤面包”分解为子任务序列。每个子任务指令ˆℓt和世界模型生成的子目标图像gt,为底层的π0.7提供了明确且 grounded 的即时目标。模型不需要在内部从头规划“烤面包”的完整步骤,它只需要可靠地完成每个被明确指定的子步骤。这种“分解-执行”的范式,是将组合复杂性从策略模型转移到规划层(高级策略+世界模型)的有效方法

5.3 跨具身迁移:技能的知识抽象

这是最令人印象深刻的实验之一。π0.7在一个轻量级双臂机器人(BiPi)上学会了“叠T恤”。然后,在不进行任何额外训练或微调的情况下,直接将策略部署到形态、尺寸、动力学完全不同的UR5e双臂机器人上,并取得了与人类操作员首次尝试相当的成功率。

这说明了什么?

  1. 模型学习的是“任务空间”的策略,而非“关节空间”的轨迹。通过末端执行器控制模式、多视角视觉输入(特别是腕部相机)以及子目标图像,π0.7学习到的是“如何使夹爪与衣服交互以达到某种视觉状态”,而不是具体哪几个关节要转动多少度。这种表示对机器人形态的变化更具不变性。
  2. 视觉子目标是跨平台的关键:对于叠衣服任务,子目标图像描绘的是“衣服被抓起一个角”、“两个角被对齐”这样的视觉状态。无论机器人手臂长什么样,达到这个视觉状态的相对运动逻辑是相似的。世界模型生成的子目标,提供了一个与具体机器人无关的、稳定的引导信号。

5.4 数据与上下文协同放大的规模效应

论文最后的缩放研究表明,数据多样性和上下文丰富度之间存在强烈的协同效应。单纯增加数据量(尤其是同质数据)带来的收益会饱和。单纯增加上下文复杂度而不提供足够多样的数据供其区分,效果也有限。只有当两者同时提升时,模型性能才会出现显著的增长。

这为未来的发展指明了方向:构建更通用的机器人智能,不仅需要收集更多数据,更需要设计更精细的数据标注体系(上下文),以及更强大的利用异构数据的模型训练方法。π0.7正是沿着这个方向迈出的坚实一步。

6. 常见问题、挑战与未来展望

在实际研究和复现π0.7思路的过程中,我们遇到了不少挑战,也总结出一些经验。

6.1 实操中的挑战与应对

  1. 数据标注的成本与一致性:为海量数据添加详细的元数据(质量评分、错误片段标记)是劳动密集型的,且容易产生主观不一致。我们的策略
    • 半自动化标注:先训练一个初版模型对片段进行初步质量评估和错误检测,人工再进行审核和修正,效率远高于纯手工。
    • 定义清晰的标注准则:为“速度”、“质量”等元数据制定可操作的定义(例如,质量5:流畅、一次成功、无冗余动作;质量1:任务失败或多次尝试后勉强成功)。
  2. 世界模型的“幻觉”问题:生成的世界模型可能产生物理上不合理或与指令不符的子目标图像(例如,生成一个悬浮的杯子)。应对方法
    • 数据过滤:在训练世界模型时,严格使用高质量、标注准确的(当前状态,子任务指令,未来状态)三元组。
    • 多模态约束:将子任务指令与当前观测一起输入,并利用预训练VLM的强视觉-语言对齐能力来约束生成。
    • 后处理与验证:在运行时,可以加入简单的合理性检查(如子目标中物体的位置变化是否在物理可行范围内),如果生成结果置信度过低或明显不合理,可以回退到不使用子目标图像,或使用上一个有效的子目标。
  3. 计算开销与实时性:同时运行VLA策略模型、高级语言策略和世界模型,对算力要求高。优化点
    • 模型蒸馏:将大型的π0.7模型蒸馏成更小的、专用于部署的版本。
    • 异步流水线:如图4.1所示,子目标生成和高级策略推理与底层策略执行异步进行,避免阻塞。
    • 硬件加速:充分利用GPU进行批量推理,并使用TensorRT等工具进行模型优化。

6.2 未来发展方向

π0.7展示了通过多模态上下文利用多样化数据实现组合泛化的可行性,但这仅仅是开始。

  • 更自动化的上下文生成:能否用大语言模型(LLM)自动为演示视频生成更丰富的语言描述和元数据?能否用视觉基础模型自动检测和标注执行过程中的关键事件或错误?
  • 从被动到主动的交互:当前上下文主要是被动的标注。未来,模型能否在训练或执行中主动提问或请求澄清(例如,“你指的是哪个抽屉?”),从而获得更精准的上下文?
  • 长期规划与推理:目前的“高级策略+子目标”范式解决了中短期的组合。对于需要多步推理和复杂条件判断的长期任务(如“准备一顿三菜一汤的晚餐”),需要更强大的分层规划和符号推理能力与π0.7这样的底层技能模型结合。
  • 从仿真到现实的无缝迁移:如何在仿真环境中高效生成带有丰富上下文的多样化数据,并让模型能直接迁移到真实机器人,是降低数据收集成本的关键。

π0.7的意义在于,它为我们提供了一套可扩展的框架:用结构化的多模态上下文作为“胶水”,将来自不同来源、不同质量、不同形态的数据“粘合”起来,共同训练出一个更通用、更鲁棒、更具组合性的机器人智能体。这条路虽然漫长,但每一步都让我们离那个能真正“举一反三”的通用机器人更近了一些。

http://www.cnnetsun.cn/news/2650682.html

相关文章:

  • 基于Apache Cassandra构建高并发实时特征库:数据模型设计与工程实践
  • 避坑指南:蓝桥杯嵌入式PWM编程,为什么你的电机控制不精准?从定时器原理到动态调频调占空比
  • 从TF-IDF到SBERT:机器学习文本查重原理与工程实践
  • 从拨号上网到光纤入户:聊聊PPP协议那些年我们踩过的坑
  • 告别卡顿和色偏!保姆级教程:用K-Lite一键搞定PotPlayer+LAV+MadVR+XySubFilter全家桶
  • 通用数据工具开发实战:从零构建数据标注与处理一体化平台
  • PHP反序列化‘快车道’:深入fast-destruct与GC回收的三种实战利用姿势
  • AI智能体安全设计:构建高可靠紧急中断机制与失效安全架构
  • 基于Arduino与PPG传感器的心率监测系统:从原理到实现
  • Keil MDK授权卡死问题分析与解决方案
  • 别再让电费白交了!从你家电脑电源里的PFC电路,聊聊功率因数补偿到底怎么省钱的
  • MATLAB 2018b及以后版本配置MinGW-w64 6.3.0编译器保姆级教程(含国内镜像下载)
  • 前端日期时间智能格式化:提升用户体验与开发效率的实战指南
  • NVIDIA显卡调优终极方案:3步解锁游戏隐藏性能的免费神器
  • 如何用YuukiPS启动器5分钟解决原神多账号管理难题
  • 别光爆破!用这道BUUCTF MD5题,带你优化Python暴力破解脚本的性能
  • 自然语言处理(NLP)核心原理、主流工具与应用场景全解析
  • ChatGPT与医疗AI:从技术原理到临床落地的挑战与路径
  • 不止于导表:用Luban+Addressables打造Unity动态热更配置系统
  • 从242个机器学习实战故事中提炼核心经验与避坑指南
  • Unity中集成去中心化系统与AI:架构设计与工程实践
  • 前端领域驱动设计:构建业务聚焦的应用架构
  • 别再用ChatGPT了!手把手教你用FLAN-T5微调自己的客服聊天摘要助手(附DialogSum数据集实战)
  • STM32 CubeMX + HAL库实战:5分钟搞定GPIO配置并读懂自动生成的代码
  • 保姆级教程:用Docker部署OnlyOffice并集成到Cloudreve,实现文档在线预览(附完整代码)
  • AI在ABM营销中的实战应用:从数据整合到个性化策略
  • 【仅限本周开放】Claude蒙特卡洛模拟私密训练手册(含21个真实故障日志+对应修复Prompt模板+收敛阈值计算表)
  • 汽车电子工程师必看:ISO 16750-2023全套标准解读与实战应用避坑指南
  • 从SENet到ConvNeXt:聊聊那些‘小改动大提升’的经典网络设计(以SE模块为例)
  • 机器学习实战:四步框架让业务人员也能构建预测模型