当前位置：首页 > news >正文

京东视频模型！JoyAI-Echo解决长视频生成失忆问题

news 2026/6/8 23:25:49

视频生成，最让人头疼的是分钟级的连续叙事，角色不像，声音对不上，越往后画面越离谱，越长生成速度越慢。

京东 Joy Future Academy 牵头，联合北大、清华、中科大等多所高校，推出了 JoyAI-Echo 框架。

该研究把跨模态一致性、实时推理、对话式交互、高分辨率输出这四件事做好。这是视频生成领域第一次在分钟级长视频上同时做到又长又快又清还能对话改稿。

JoyAI-Echo 用一个跨模态音视觉记忆库解决了失忆，用一套后训练管线解决了又慢又糙，用一个 Director Agent（导演代理）解决了不会用，用一个轻量超分模块解决了不够清。

四个组件各司其职，串联起来就是一条从创作意图到高分辨率成片的完整链路。

记忆，让长视频不再失忆

做长视频最怕什么？角色在第一个镜头里穿蓝衬衫、声音低沉磁性，到了第十个镜头突然换了张脸、声线也变了。

这类失忆在多步自回归生成里几乎是宿命级的难题，因为模型一边生成新内容，一边就忘了之前长什么样。

JoyAI-Echo 的解法是建一个跨模态音视觉记忆库（Cross-Modal Audio-Visual Memory Bank）。

生成每个新镜头时，让模型回头翻一翻“相册”和“录音笔”，看看角色之前长什么样、说话什么声。具体来说，记忆库由若干个槽位对组成，每个槽位对绑定了同一历史事件的视觉记忆和音频记忆，视觉记忆编码角色外貌和表情状态，音频记忆编码说话的音色特征。两者在事件级别一一绑定，确保“这张脸配这个嗓音”的对应关系不会乱。

记忆的更新策略也很讲究。不是把所有历史镜头一股脑塞进去，而是保留前3个镜头作为锚点，加上最近4个镜头作为上下文，总共7个槽位。锚点负责远距离的身份参照，上下文负责短程的连续性。这种远锚近联的设计，在5分钟视频里让角色外观和声音保持高度一致。

为了让记忆真正发挥作用，团队在注意力机制上也做了精巧设计。

音频分支中，前70%的 Transformer（变换器）层屏蔽记忆token，让模型先专注于当前镜头的语音内容和节奏，后30%的层才打开记忆交互，把音色信息融合进来。跨模态交互部分则用严格的槽位对齐掩码，第i个视觉记忆槽只跟第i个音频记忆槽对话，跨事件的脸音混搭被彻底禁止。

训练时还有两个细节值得说。一个是记忆长度感知的损失加权，记忆槽越多，视觉端的监督信号越强，因为长记忆上下文里唇形同步更难做，需要更强的约束。另一个是音频到视频的梯度放大，在保持前向计算不变的前提下，把音频对视频分支的梯度贡献乘以放大因子，让嘴型跟着语音走的耦合更紧。两个训练阶段里，这些因子从2倍逐步提升到6倍。

数据层面，团队从百万量级的影视和网络长视频出发，构建了一个以身份为核心的视频语料库。

基本单位不是孤立的片段，而是同一角色在不同场景下的多个镜头组。通过全局身份聚类、场景分组、局部角色分配、多样性筛选四步流程，最终提取出超过100万个唯一角色身份，每个身份关联多个场景多样的高质量镜头。

这个数据集的设计哲学，就是要让长视频生成需要模型看到同一角色在不同光照、服装、表情、背景下的变化，而非仅仅是大量的孤立短视频。

后训练，快且好

有了记忆库，模型确实能保持跨镜头一致性了，但生成质量、音视觉同步、推理速度仍有提升空间。JoyAI-Echo 设计了一套三阶段后训练管线，从质量到对齐再到加速，层层递进。

第一阶段是记忆感知的 SFT（监督微调）。高质量的多镜头音视觉视频很稀缺，但高质量的单镜头视频相对容易获取。

团队的做法是把单镜头训练当作零记忆的多镜头训练的特例，让两类数据在同一个框架下自然融合。微调过程中，多镜头数据以一定概率被采样，保留模型的记忆能力。分辨率方面采用渐进策略，先在480p上微调，再推进到720p，让模型平稳适应更高的空间分辨率。

第二阶段是跨模态 RLHF（基于人类反馈的强化学习）。团队引入了一个叫 OmniNFT 的模态感知扩散强化学习框架。

原始的强化学习直接搬到多模态生成上有三个坑：视频和音频的奖励优势经常不一致，高质量画面不一定对应高质量声音；视频分支的梯度会泄漏到音频网络的浅层，干扰音频自身的生成；均匀的信用分配策略没法区分音视觉同步中关键区域的贡献差异。

OmniNFT 用三招对应解决：模态独立优势路由，给视频质量、音频保真、跨模态同步各算各的优势信号，各走各的分支；层级梯度手术，在音频浅层部分切断视频梯度，深层跨模态交互块保留完整梯度流；区域损失加权，用视频到音频的交叉注意力图定位发声区域，对这些感知敏感区加大优化力度。

第三阶段是记忆感知的 DMD（分布匹配蒸馏）。

这是加速的核心。把多步教师模型蒸馏成一个8步学生模型，教师、学生、分布匹配判别器三方共享相同的镜头条件和音视觉记忆，确保蒸馏不只保留短视频质量，还保留长视频的记忆条件行为。

音频分支直接套标准蒸馏容易不稳定、引入可听噪声，团队用 EMA（指数移动平均）平滑优化器动量缓冲区来缓解。视频和音频的损失权重比设为1:0.5，平衡两个分支的梯度尺度。为了降低训练与推理的差距，蒸馏训练时还对记忆输入施加退化，模拟自回归生成中累积的漂移，让学生模型在条件不完美时依然健壮。

三阶段走完，最终实现7.5倍推理加速，视觉质量和对齐度也大幅提升。原来的多步模型变成了8步的快速生成器，分钟级长视频的实时推理从理想变成现实。

对话即创作，实时出超清

底层模型能生成长视频了，但普通用户不会写结构化的镜头级提示词，他们只会说“我想做一个关于巫师冒险的故事”。

JoyAI-Echo 用 Director Agent 来弥合这个鸿沟。

Director Agent 的工作流分规划和生成两阶段，中间嵌入迭代式审查与修订。规划阶段，Agent（代理）把用户模糊的意图展开成剧本、角色卡、场景卡、镜头计划，每个镜头指定角色、动作、对白、时长等结构化信息。生成阶段，Agent 把镜头计划编译成模型能理解的条件，检索相关历史镜头，选择动态记忆条目，调用 JoyAI-Echo 生成器，再把生成结果写回历史管理器。

Agent 的记忆设计分固定和动态两种。固定记忆跟模型内部的记忆机制对齐，从角色卡、参考图、参考音频或初始化镜头构建，负责身份、外观、音色这类底层一致性。动态记忆由 Agent 按语义相关性选择，对每个参考镜头应用 KOK（关键帧选关键镜头）策略，提取同步的音视觉记忆对。固定记忆管认人，动态记忆管叙事连贯，各尽其职。

审查与修订是闭环的。每个镜头生成后，用户可以逐镜头检查，给出局部修改指令，比如改角色外貌、调动作、换对白。Agent 把反馈定位到受影响的镜头条件和关联记忆条目，只重新生成对应的镜头，不用整段重来。修订结果写回历史管理器，如果修改影响后续叙事连续性，Agent 还会更新后续镜头的动态记忆。这种闭环设计让长视频创作从一次性押宝变成边看边改。

分辨率方面，原生720p对于分钟级视频已经不错，但离制作级高清还有距离。JoyAI-Echo 加了一个音视觉联合超分模块，把超分当作条件生成任务来做：给定低分辨率视频潜变量和粗音频潜变量，SR（超分辨率）模型用单个扩散步生成对应的高分辨率视频和精细化音频。支持两个档位：736×1280升到1152×1920（1K），以及736×1280升到1472×2560（2K），共享同一套架构和蒸馏流程。

训练数据约87.6万高质量音视觉样本，分辨率覆盖1080p到4K，时长5到17秒。筛选很严格，图像质量评估模型逐帧检查清晰度、噪声和压缩伪影，音频质量评估器检查信噪比、频谱清晰度和削波，视觉和听觉双门槛同时达标才保留。数据还刻意加重了困难样本的比例，包括语音驱动的面部运动、屏幕文字、小物体、快速运动、密集纹理和镜头切换。

蒸馏同样用DMD，把多步超分模型压缩成单步生成器，同时结合重建损失和LPIPS（学习感知图像块相似度）感知损失做稳定化。训练采用 LoRA（低秩适配）微调冻结的基础权重，在教师和学生之间切换适配器，避免在显存里同时维护两份完整模型。

推理时，JoyAI-Echo 先生成720p的视频和音频潜变量，一步送入超分生成器，直接输出高分辨率的精修视频和音频，单次前向传播搞定。

性能实测

评估在一个精心构建的长篇音视觉生成基准上进行，包含100个故事、3000个镜头，每个故事30个连续镜头，每镜头241帧、25fps。基准涵盖指定IP角色和原创角色，动画风格和实拍风格。评估维度覆盖跨镜头一致性、视频质量、文本一致性、语音内容准确性五个方面。

用户偏好测试采用盲评逐对比较（GSB），结果如下：

长视频对比中，JoyAI-Echo 在视觉美学、音频质量、提示遵循、IP一致性四个维度上全面领先 Happy Oyster 的导演模式，音频质量和提示遵循的优势尤其明显，超过80%的评审选择了 JoyAI-Echo。短视频对比中，面对短视频专精模型 Wan 2.6，JoyAI-Echo 在视觉美学和提示遵循上同样占优。

量化指标上，JoyAI-Echo 在所有评估维度上都取得了最优成绩：

跨镜头一致性方面，JoyAI-Echo 的 ViCLIP 相似度达到0.8026，Self-CIDS（跨镜头身份一致性）达到0.7793，语音一致性达到0.8129，三项均为最高。与各维度最强基线相比，Self-CIDS 提升了0.0302，语音一致性提升了0.0184。

级联方法（ShotStream+MMAudio、StoryMem+MMAudio）在视觉一致性上有竞争力，但语音准确率极低，因为后处理的音频生成没法还原脚本对白的语义内容。

视频质量方面，JoyAI-Echo 的美学质量0.5679、成像质量0.7058，均为最优。文本一致性 CLIP 分数0.2658，同样是最高。语音内容准确率0.8646，略超 LTX-2 的0.8564，远超级联基线和 Happy Oyster。

JoyAI-Echo 的代码和模型权重已公开发布。

一个能在五分钟级的视频中记住角色长什么样、说话什么声，保持角色一致性的开源模型，让长视频生成向前推进了一步。

参考资料：

https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/

https://huggingface.co/jdopensource/JoyAI-Echo

https://github.com/jd-opensource/JoyAI-Echo

https://www.researchgate.net/publication/405770309_JoyAI-Echo_Pushing_the_Frontier_of_Long_Audio-Visual_Generation

查看全文