当前位置：首页 > news >正文

字节开源王炸Bernini！轻松拿捏各类视频编辑任务

news 2026/6/5 12:02:59

今天Bernini团队刚刚发布并开源了一项重磅研究成果Bernini。

这是一个将多模态大模型与扩散模型巧妙融合的统一视频生成与编辑框架，一经问世便在各大权威视频编辑和生成榜单上拿下顶尖成绩。

Bernini能够轻松拿捏各类视频编辑任务。

Bernini团队是怎么实现的？

大脑管规划双手管画画

多模态大语言模型（MLLM）在逻辑推理和语义理解上展现出了惊人的天赋，宛如一位满腹经纶的智者。

扩散模型在图像和视频生成上则达到了令人惊叹的逼真度，宛如一位妙笔生花的画师。

让智者去画画，线条难免生硬。让画师去解题，逻辑往往一塌糊涂。

有没有可能让这两位高手强强联手？

既然多模态大模型擅长语义推理，扩散模型擅长像素渲染，不如直接给它们进行物理分工。

Bernini正是基于这种分工理念构建的统一框架。

(A) 视觉和文本输入被序列化为统一的一维序列。(B) 规划师从掩码目标中预测目标语义嵌入，并为渲染器提供条件指导。(C) 渲染器在潜在空间中执行流匹配，接收语义嵌入和源数据特征双重指引。(D) 模型内部采用了分段混合注意力机制。(E) 特殊的分段感知位置编码彻底消除了来自不同片段的视觉标记重叠歧义。

在这个框架里，多模态大模型化身为语义规划师，只负责动脑子。基于DiT架构的扩散模型变身为像素渲染师，专心负责动手。

它们之间有一座沟通的桥梁，也就是视觉Transformer（ViT）的嵌入空间。规划师不需要直接输出笨重的原始高清画面，只需要在ViT空间里预测出目标视频的语义表达，把核心意图浓缩成高维数据。

随后，渲染师接过这份高度浓缩的计划书。在目标语义的强力指引下，结合原本的文本输入特征，以及源视频的变分自编码器（VAE）特征，去进行细致入微的像素级生成。

正是因为所有的核心交流都在这层语义接口上完成，规划师和渲染师完全可以各自独立完成主体预训练。

只需在最后的阶段进行轻量级联合调优，就能将它们完美绑定。这样做既保全了各自原有的强大能力，又大幅削减了联合训练所需的庞大开销。

位置消歧与思维链推理

想要真正玩转极具挑战的视频编辑，单靠基础的分工框架还远远不够。

实际应用中，一段完整的提示词往往同时包含原视频、多张参考图和目标预期视频。一堆庞杂的视觉信息全丢进模型里，很容易引发一场身份混淆的灾难。参考图片里的飞鸟，一不小心就会跑错片场，长到原视频原本干净的天空背景上。

为了解决这个棘手难题，研究团队巧妙引入了分段感知3D旋转位置编码（SA-3D RoPE）。

普通的3D位置编码只是机械地记录时间、高度和宽度坐标。当多段视觉素材被强行拼成一个大序列时，不同素材的元素大概率会挤在相同的时空坐标系下。

SA-3D RoPE的做法是给每一个素材片段分配一个专属的防伪索引。它通过引入分段依赖的全局相位调制机制，把片段自身的身份信息与纯粹的时空位置彻底解耦。

注意力机制在扫描全局时，立刻就能精准识别谁属于原视频、谁属于参考图，从根源上杜绝了特征信息的错误泄漏。

消除了视觉歧义，还要解决更深层次的逻辑难题。如何让规划师真正把理解力升华为创造力？

思维链推理机制成为了破题的关键。

在Bernini的运作逻辑中，编辑不仅是简单的像素搬运，更是严密的物理推理过程。研究团队为其量身打造了文本自我推理与视觉文本自我推理双引擎。

面对结构简单的直接编辑指令，模型会在内部启动自我文本推理，将其改写、扩写为包含景别、动作细节、时间逻辑的丰富脚本。

面对难度更高的因果关系编辑，自我视觉文本推理机制便会接管战场。它会先在大脑里推演关键首帧的视觉变化，将其生成为一张过度状态的图像，随后将这种空间层面的变化平滑扩展至整条时间轴上。从理解到推理再到生成，全链条的逻辑顺滑无比。

传统方法是拿到指令直接编辑。Bernini引入了两段式思维链，先通过文字逻辑推演改写指令，再通过视觉引擎构建中间视觉状态，极大地增强了画面的事实物理逻辑底蕴。

海量数据与极致系统优化

再精巧的算法骨架，也必须依靠海量高质量数据来填补血肉。

研究团队采用了非常精细的三阶段循序渐进策略。

阶段一，单独锤炼规划师，通过掩码生成建模范式，训练它根据多模态上下文补全缺失视觉信息的能力。阶段二，单独锤炼渲染师，专注提升它在高保真生成与源视频细节保留上的手艺。阶段三，双剑合璧，进行轻量级联合训练，打通语义规划与像素生成的任督二脉。

数据层面，研究团队直接构建了一个规模庞大且任务繁复的全能语料库。

为了打破现有视频编辑数据匮乏的僵局，他们从全网通用语料里大浪淘沙，通过相似度严格计算与内容感知采样，提炼出高达2000万对优质视频素材。又马不停蹄地挖掘了近3000万对包含真实场景物理操控的图像对比数据。

为了让模型懂得人类复杂的肢体语言与物理互动，他们还专门设计了运动感知生成管线，收集了百万级别带有人物骨骼检测标注的微观动作数据集。

训练支持超长上下文的视频编辑大模型，显存与计算资源压力如泰山压顶。团队对底层并行配置做了外科手术级的解剖重构，摒弃了传统的发散操作，直接通过预分配缓冲区执行索引散射，挤出了17GB的宝贵中间显存。结合特定的计算力卸载与Ulysses序列并行机制，模型的序列吞吐极限被暴力拉升4.4倍，稳稳拿捏440K超大文本与图像交织序列。

为了彻底消除推理生成慢的用户痛点，团队还引入了两阶段模型蒸馏机制。利用无分类器引导蒸馏技术，让模型在单次前向传递中直接吃透双路输出规律。只需短短4次底层运算，便能呈现出以往需要耗费80步算力的光影画质。