当前位置：首页 > news >正文

20倍速推理+790年视频训练：Emu3.5开启多模态世界学习新纪元

news 2026/6/19 8:42:17

20倍速推理+790年视频训练：Emu3.5开启多模态世界学习新纪元

【免费下载链接】Emu3.5项目地址: https://ai.gitcode.com/BAAI/Emu3.5

导语

北京智源研究院发布的"悟界·Emu3.5"多模态世界大模型，通过10万亿多模态Token训练实现物理世界动态模拟，推理速度提升近20倍，标志着AI从数字内容生成迈向具身智能的关键转折。

行业现状：从"像不像"到"懂不懂"的范式转移

当前多模态AI正经历从"内容生成"向"世界理解"的技术转型。2024年中国多模态大模型市场规模达138.5亿元，同比增长67.3%，2025年预计攀升至236.8亿元。然而主流模型中约60%采用"组合式架构"，通过独立模块处理不同模态，导致长视频处理时文本理解准确率下降、视觉生成时空一致性受损。

如上图所示，这是智源研究院举办的"悟界·Emu系列技术交流会"现场，参会者围绕多模态世界大模型Emu3.5展开交流。此次发布的Emu3.5突破了传统组合式架构的局限，通过原生统一架构实现了跨模态的深度融合，为AI理解物理世界奠定了基础。

技术突破：三大核心能力重构多模态边界

原生统一的世界建模架构

Emu3.5基于340亿参数的稠密自回归Transformer模型，采用"Next-State Prediction"自回归架构，将图像、文本统一编码为interleaved序列Token。这种设计突破了传统模型需要模态转换器的瓶颈，使系统能像人类婴儿一样通过连续观察学习物理规律。

790年长视频训练的物理直觉

模型在超10万亿多模态Token上预训练，其中包含790年互联网视频帧与转录文本。通过关键帧提取算法，系统掌握了物体运动、光影变化等物理规律。在"火星卡丁车"场景生成测试中，能动态模拟低重力环境下的行驶轨迹与扬沙效果，时空一致性较Stable Diffusion提升40%。

DiDA技术实现20倍推理加速

创新"离散扩散自适应（DiDA）"技术将自回归序列生成转为双向并行预测。实测显示，512x512图像生成时间从512秒缩短至26秒，首次让自回归模型效率媲美闭源扩散模型。这一突破使Emu3.5在普通消费级GPU上即可实现实时交互。

核心能力展示：从像素级编辑到物理规律推理

高精度图像编辑与内容保留

Emu3.5在保留内容结构完整性方面展现出卓越能力。在文档编辑任务中，系统能精准识别并消除手写批注，同时完整保留复杂公式排版。这种细粒度操控得益于13万词汇量的视觉分词器，可实现2K分辨率图像的像素级操作。

如上图所示，左侧输入带有手写批注的文档图片，右侧输出移除手写批注后的干净文档图片。Emu3.5在保留公式排版的同时精准消除手写痕迹，这种能力源于模型对文本语义和视觉布局的双重理解，为学术论文编辑、设计草图优化等专业场景提供了高效解决方案。实测显示其OCR准确率达98.7%，文本替换精度超越传统图像编辑工具。

跨模态任务的全能表现

视觉叙事：生成60帧连贯图文故事，角色一致性超越Gemini 2.5 Flash
具身操作：规划12步机械臂整理桌面流程，动作可行性评分达89.3分
X2I生成：支持草图、深度图等8种输入模态，在"猫科动物形象转3D手办"测试中保持核心特征一致性

如上图所示，图片展示了Emu3.5的图像编辑功能，左侧输入指令"将物体4改为电影海报"，右侧对比呈现输入场景（INPUT）与修改后物体4替换为电影海报的输出场景（OUTPUT），直观体现其多模态图像编辑与空间一致性处理能力。这种细粒度编辑能力得益于其对文本-视觉关系的深层理解，在图文对齐任务上超越Gemini 2.5 Flash Image等竞品。