当前位置：首页 > news >正文

牛津大学让AI学会“物理直觉“:无需看视频就能预测物体运动

news 2026/6/29 21:36:21

这项由英国牛津大学视觉几何组完成的研究，以预印本形式于2026年6月25日发布，论文编号为arXiv:2606.27364，感兴趣的读者可以通过该编号查阅原文。

物理世界从不按剧本走。一颗橡皮球从桌子上滚落，会以某种弧线弹开；一团橡皮泥被扔到地上，会以另一种方式扁塌变形。我们人类凭借多年的生活经验，不用计算就能粗略预判这些过程。但对于机器人、游戏引擎、虚拟现实系统而言，要让计算机真正"理解"物体在三维空间中怎么运动，至今仍是个棘手的问题。

牛津大学的研究团队正是为了解决这个问题，提出了一个名为PHYSIFORMER的模型。它的核心雄心可以用一句话概括：给它一个物体在某一时刻的位置和速度，它能预测接下来整段时间里这个物体的完整运动轨迹——不管物体是坚硬的铁块还是软塌塌的橡皮泥，不管场景里有一个还是十五个物体。

一、从"看视频猜物理"到"直接读懂三维空间"

过去，有研究者尝试用视频生成模型来模拟物理世界。道理听起来挺顺：把摄像机拍到的画面输入模型，让它预测下一帧会长什么样，依次生成下去，就像翻连环画一样，看起来就有了运动感。

但这条路有一个根本性的麻烦——视频本质上是一种"幻觉"。摄像机只能从一个固定角度记录二维画面，物体的真实形状、深度、材质都被压缩成了像素。更糟糕的是，同一段真实的物理运动，换个拍摄角度就会产生完全不同的视频画面。最近也有研究明确指出，目前的视频生成模型在物理合理性方面表现很差，经常违反牛顿定律，生成在真实世界里根本不可能发生的运动。

牛津大学团队的想法是绕开这条弯路，直接在三维坐标空间里工作。他们把物体表示为由顶点和三角形面组成的三维网格——这正是MuJoCo、PyBullet等专业物理仿真器使用的那种表示方式。这种表示方式与拍摄角度无关，无论从哪个方向看，物体的三维坐标始终是那个坐标。换句话说，PHYSIFORMER处理的不是"从摄像机视角看起来怎样"，而是"物体在真实世界空间中实际在哪里"。

这种出发点带来了一个关键优势：物理规律本身就是在三维空间中运作的，用三维坐标来表达运动，比用像素来表达要自然得多，也准确得多。

二、PHYSIFORMER到底在做什么

具体来说，PHYSIFORMER接受的输入包含三个部分。第一是每个顶点在初始时刻的三维位置，记为X?；第二是每个顶点在初始时刻的速度，记为V?；第三是物体的材质类型，即是刚性的（像金属块）还是弹性的（像橡皮泥）。

给定这些初始信息，模型需要一次性输出未来整段时间内所有顶点的完整运动轨迹。研究团队将时间离散化为若干帧，每帧都有一个对应的顶点位置矩阵，轨迹就是这些矩阵按时间排列组成的"立体电影"。

说到这里，有一个关键设计选择值得重点解释：PHYSIFORMER是"一次全部生成"，而不是"一步一步往下预测"。

后一种方式叫做自回归方法，类似于接龙游戏——模型先预测第二帧，再用第二帧预测第三帧，依次类推。自回归方法在语言模型、粒子系统模拟等领域取得过不少成果，直觉上也很合理：牛顿力学本来就是马尔可夫链式的，知道当前状态就能推算下一刻的状态。

但实际上，这种接龙方式有一个致命缺陷：误差会不断叠加。每一步预测都有微小偏差，下一步建立在这个偏差之上，偏差再叠加新的偏差，几十帧后就可能面目全非。研究团队在实验中发现，自回归模型预测到后期时，原本坚硬的金属块开始"融化"变形，静止的物体莫名其妙地漂移，物体甚至冲破了场景边界——这些都是误差积累惹的祸。

PHYSIFORMER选择了一条不同的路：把整条轨迹当作一个完整的生成目标，一次性生成出来。这样就没有帧与帧之间的误差传递，模型能在全局范围内保持时间上的一致性。

三、扩散模型：像在雕塑一样从混沌中提炼轨迹

PHYSIFORMER的生成机制基于一种叫做"扩散模型"的技术。用一个生活化的类比来理解：扩散模型的工作方式有点像雕塑家从一块粗糙的石料中逐渐凿出精细的雕像。

在训练阶段，研究团队故意把正确的运动轨迹"污染"——向其中掺入随机的噪声，使它变得模糊混乱，就像把清晰的雕像磨成了粗石块。然后让神经网络学会反过来操作：给它一个被污染的轨迹，让它猜出原本干净的轨迹应该长什么样。

具体使用的是"流匹配"框架：定义一个从纯噪声（τ=0）到真实轨迹（τ=1）的插值路径，网络被训练为预测这条路径在每一点上的"流向"（即该往哪个方向去噪）。推理时，从一个完全随机的噪声轨迹出发，按照网络指引的流向一步步走，走到终点就得到了一条物理合理的轨迹。

训练时噪声强度的参数选择很有讲究。常规的扩散模型使用标准高斯噪声，但这套系统处理的是原始三维坐标，信号的尺度和统计特性与图像像素差别很大。研究团队经过实验发现，使用标准噪声量的十分之一（noise_scale=0.1）效果最好：噪声太小，模型泛化能力差；噪声太大，去噪任务变得过于困难，生成结果会有杂乱的抖动。研究人员猜测，因为轨迹被初始状态强烈约束，有效信号范围本身就比较窄，所以较小的噪声尺度更合适。

推理时采用Heun积分器，默认使用50步迭代去噪，但实验表明25步就能得到几乎同等质量的结果，速度快一倍。

四、三重注意力：让模型同时"懂时间、懂空间、懂物体"

PHYSIFORMER的神经网络架构基于"扩散变换器"（DiT）这一通用框架，但针对物理模拟场景做了若干定制化改造，其中最核心的是注意力机制的三重分解。

理解这个设计，先要知道变换器模型的基本工作方式：它把所有输入切成一个个"词元"（token），然后让每个词元去"关注"其他所有词元，汇集信息后做出判断。在PHYSIFORMER里，每个词元对应一个顶点在某一帧的位置。如果场景里有N个顶点、T帧画面，那就有T×N个词元。如果让所有词元彼此关注，计算量会以T?×N?的速度爆炸式增长，很快就无法承受。

研究团队的解决方案是把这个大问题拆成三个小问题，交替进行。

空间注意力负责处理同一时刻不同顶点之间的关系。具体操作是把T×N个词元重组为T组、每组N个词元的格局，让每一帧内部的顶点之间相互关注，但不同帧之间暂时不互相联系。这样可以让模型在每一个时刻了解"各个顶点现在的相对位置关系"，就像拍了一张当前场景的快照。

时间注意力负责追踪同一个顶点在不同时刻的变化。把T×N个词元重组为N组、每组T个词元，让每个顶点自己的历史轨迹上下贯通，捕捉"这个点是怎么运动的"这种时序信息。

物体注意力是团队的独特创新。如果场景里有K个物体，把属于同一个物体的顶点归在一组，组内互相关注。这样模型就能在每个物体内部充分交换信息，知道"这些顶点属于同一个刚体或弹性体，应该保持某种整体性"，而不需要给每个物体打一个特殊的身份标签。更妙的是，这种设计对物体的排列顺序不敏感——无论输入时先列出哪个物体，结果都一样，这在技术上叫做"置换不变性"。

三种注意力交替叠加，总计算量从O(T?N?)降至O(TN?+NT?)，大幅提升了效率，同时又确保信息能在时间、空间、物体三个维度上充分流通。

五、坐标感知的位置编码：让模型知道"谁离谁近"

变换器模型本身对位置没有感知——如果不做任何处理，它无法区分两个顶点是紧挨着还是相隔很远。为了把空间和时间的位置信息注入模型，研究团队使用了"旋转位置编码"（RoPE），这种编码方式能自然地表达相对位置，与物理世界的平移不变性（同一个运动场景，整体平移后物理规律不变）高度契合。

时间维度使用标准一维RoPE，按帧序号编码。空间维度则沿用了RenderFormer（一个三角网格渲染模型）的做法，直接把顶点的三维坐标转换为旋转角度信息。具体方式是对x、y、z三个坐标分别乘以一组以2为底的对数间隔频率，把结果转为正弦余弦系数，注入查询和键向量的旋转矩阵中。这样，两个顶点之间的注意力强度自然地受它们在三维空间中相对距离的影响，更近的顶点更容易互相"关注"。

此外，模型还有16个全局"注册词元"（register tokens），它们在每次注意力操作后通过平均聚合的方式更新，相当于场景级别的全局记忆，帮助模型在碎片化的局部注意力操作之间保持整体信息的连贯。

六、数据集：从零造出十万段物理演练

为了训练这个模型，研究团队自己用Genesis物理仿真器生成了超过十万段模拟轨迹，构成了四个规模递增的数据集。

第一个数据集D?包含一万段刚性物体场景，每个场景有一到五个凸多面体物体，物体从预设的十五种模板网格中选取，每个物体的顶点数在四到二十之间。物体被放置在地板上，赋予随机的初始线速度，部分物体速度为零。为了让静止但不稳定的物体能在重力下自然倒塌，每个物体的朝向加入了微小的两度随机扰动。

第二个数据集D?包含一万五千段场景，模板扩展到二十五种凸形和十种凹形，每个物体顶点数最多达八十八。第三个数据集D?规模最大，包含六万段场景，物体从地面起始和从空中起始各占一半，物体数量扩展到最多十个，还有部分场景包含初始角速度，即物体一开始就在旋转。第四个数据集D?包含两万段弹性物体场景，每个物体的杨氏模量固定，物体可以产生可见的形变。

所有场景都在一个边长两米的立方体容器内进行，物体之间、物体与箱壁之间都可能发生碰撞。仿真参数设置为尽量弹性的碰撞，摩擦力被最小化，但保留了模拟器内置的阻尼以确保数值稳定性，因此碰撞是"近弹性"但并非完全无能量损失。

训练策略分阶段推进：先在D?上训练七万步，得到基础模型PHYSIFORMER-L-10k；再在D?+D?+D?合并数据上继续微调两万七千步，扩展到更复杂的刚体场景；最后在D?上再微调一万两千步，加入弹性物体的能力，训练时确保刚性与弹性场景各占六成和四成的比例。

七、和自回归基线的正面交锋

研究团队精心设计了两类自回归基线来做对比。

第一类是他们自己实现的ΦAR框架，基于变换器编码器，输入当前时刻的顶点位置和速度，预测下一时刻的速度，再积分还原位置，如此循环。为了尽量提升其表现，团队探索了两个优化方向。一是延长上下文窗口：从只看当前一帧（ctx1）扩展到回看过去四帧（ctx4），理论上更多的历史信息有助于更稳定的预测。二是训练时注入噪声（ctx4_noised）：在训练阶段故意向输入中加入与测试时误差积累量级相当的噪声，让模型学会从带有误差的输入中恢复，模仿测试时自回归推理的真实条件。

第二类基线是TIE（隐式边缘变换器），这是粒子动力学模拟领域的一个有影响力的模型，在多个经典基准上超越了图神经网络基线。TIE通过注意力来模拟粒子之间的隐式边缘连接，参数r控制两个粒子之间最远有效交互距离。研究团队以r=0.4和r=1.0两组设置进行测试，还在附录中补充了r=2.0和r=3.5的结果。

评估使用三个指标。轨迹均方误差（MSE）衡量预测轨迹与仿真真值之间的顶点位置平均偏差，越低越好。刚性误差使用Kabsch算法为每个物体每一帧找到最佳拟合刚性变换（旋转加平移），衡量预测位置偏离该变换的程度，理想的刚性物体该误差应趋近于零。动量漂移比则比较预测轨迹和真值轨迹的动量随时间变化的幅度，比值为1代表完全一致，越偏离1越差。

数量结果显示，PHYSIFORMER在49帧的完整轨迹预测上，MSE为9.55×10??，远低于自回归基线中最好的TIE(r=1.0)的14.8×10??；刚性误差为0.185×10??，同样优于所有自回归方法（TIE最好也有20.6×10??）；动量漂移比为1.91，在所有方法中最接近理想值1。更关键的是，TIE和ΦAR的长期表现随时间急剧恶化，而PHYSIFORMER的输出在前十帧和全部四十九帧之间仅有温和的差距，说明它的生成在时间上保持了稳定的一致性。

从定性的视觉对比来看，差距更加触目惊心。在测试场景中，自回归模型到了后期（第三十帧、第四十八帧）纷纷出现物体形状严重变形、原本静止的物体无故漂移、物体冲破边界消失的问题，即便是最强的TIE(r=1.0)也难逃此命运。PHYSIFORMER的输出始终保持物体形状完整，静止的物体老实待着不动，运动的物体沿合理的轨迹前进。

一个有说服力的对照实验进一步证实了自回归方法的根本局限：当自回归模型在每一帧都以真实数据作为输入（即训练时的理想条件）时，它的MSE和刚性误差骤降一到两个数量级，表现极为出色。这说明这些模型本身是"会物理"的，只是在独立推理时被自身累积的错误拖累了。问题不在学习能力，而在于自回归推理架构本身的弱点。

八、泛化到从未见过的形状、场景和物体数量

PHYSIFORMER另一个引人注目的特性是它的泛化能力。

训练数据中使用的都是相对简单的多面体，每个物体最多八十八个顶点。但测试时，研究团队把斯坦福兔子、茶壶、马等复杂真实世界网格输入模型，每个物体有三百五十六个顶点，远超训练时见过的规模。模型依然能生成物理合理的运动轨迹，物体的整体形状和运动趋势都令人信服。

训练时每个场景最多有十个物体，但测试时放入十五个物体，模型依然能协调所有物体之间的交互，正确处理多体碰撞。这背后的原因正是物体层面注意力的设计——无论有多少物体，模型只需在组内交换信息，新增的物体自然地纳入相同的处理流程，不需要额外的工程改造。

更有趣的是混合材质泛化。训练时每个场景要么全是刚体，要么全是弹性体，从未见过两种材质混合的场景。但测试时把刚性金属兔子和弹性橡皮鱼、弹性橡皮茶壶放在一起，模型不仅能正确让橡皮体产生形变，还能正确保持兔子的刚性，并在二者碰撞时产生合理的物理响应。这意味着材质类型的条件信息在模型内部已经形成了足够通用的表示，能够在训练分布之外正确组合。

定量泛化测试中，在训练集测试分割、未见凸体、六到十个物体、未见凹体四种设置下，单样本MSE分别为9.1×10??、8.6×10??、1.1×10??、7.3×10??，如果每次生成五个候选再选最优，表现进一步提升（最佳MSE降至5.5×10??到8.6×10??之间）。这说明生成式框架带来了一个额外福利：可以通过多次采样取最优，这在确定性模型中根本无从实现。

九、与物理仿真器的速度对决

物理仿真器和神经网络模型各有所长，那么在实际效率上，两者差距有多大？

研究团队在配备八十线程至强处理器的CPU服务器上测试了Genesis仿真器的速度。对于一到十个刚性物体，每个样本平均耗时一到六秒半；而对于一到五个弹性物体，每个样本平均需要二十到三十六秒，因为弹性体的内部力学求解比刚体复杂得多。

PHYSIFORMER在单张H100 GPU上，使用二十五步去噪，每个样本耗时约六秒半（对刚体），与仿真器速度相当；对于弹性物体场景，PHYSIFORMER耗时约六秒七，而仿真器需要二十到三十六秒，速度优势超过五倍。

更重要的是，PHYSIFORMER的推理时间与场景复杂度的耦合关系远弱于仿真器。仿真器的计算量与物体数量、材质类型、接触事件频率密切相关，遇到复杂场景可能急剧变慢。PHYSIFORMER则使用固定数量的去噪步骤，每步的计算量主要取决于顶点数量，不受材质类型左右。

在某些仿真器自己失败的场景中——比如高速碰撞时物体穿越边界，或者复杂凹形体导致接触求解失败——PHYSIFORMER依然能给出物理合理的预测，展示了神经网络方法在鲁棒性上的潜在优势。

十、概率性生成：不确定未来的多种可能

现实中的物理系统往往存在研究人员没有告诉模型的隐藏变量——物体的精确质量、表面材质的细节、微小的初始朝向偏差。这些因素在理论上决定了系统的确切演化，但在实践中很难完整获取。

PHYSIFORMER的扩散模型框架对此给出了一个优雅的处理方式：把这些未知因素的不确定性转化为生成多样性。每次从同一个初始条件出发，模型都能采样出一条不同但同样物理合理的轨迹。这些不同的轨迹代表了在未知参数的不同取值下，系统可能演化的不同方向。

在实验中，对同一个场景生成五条轨迹，MSE的标准差在全部四十九帧的评测中为13.5×10??，说明不同采样之间确实存在显著差异。但从定性视角看，这些不同的轨迹都是合理的物理行为，只是因为碰撞角度的微小差异而走向了不同的结局——就像台球在稍有偏差的击打下会奔向不同的袋口，每条路都合乎规则，但最终结果各异。

这一特性对于需要评估风险、规划决策的应用场景尤为有价值。机器人需要在不确定环境中做出安全动作，工程师需要评估设计在极端情况下的表现——能看到多种可能的未来，比只能得到一种"最可能"的预测，往往更有用。

说到底，PHYSIFORMER这项工作的真正意义不仅在于它在各项指标上超过了自回归基线，更在于它提供了一种全新的视角：物理运动预测不必依赖精心设计的刚性约束、接触检测算法或特殊的图结构，一个足够通用的扩散变换器，在正确的输入表示下，通过充分的数据训练，完全有能力自发涌现出对物理规律的理解。这种"少即是多"的设计哲学，在很多看似需要大量工程先验的任务上，往往能带来意想不到的惊喜。

当然，这项研究还有清晰可见的局限。目前模型只能生成固定长度的四十九帧轨迹；训练时最多支持到三百五十六个顶点，对于更精细的网格效果会打折扣；完全依赖扩散损失训练，没有显式的碰撞检测约束，偶尔会出现物体相互穿透的不合理现象；在多块生成的长时间滚动推理中，刚性误差会随块数增加而积累。这些问题指向了明确的未来方向：结合扩散强迫（Diffusion Forcing）机制实现更长序列生成、引入空间压缩来处理更复杂网格、加入基于碰撞检测的物理约束损失——每一条都是值得深入探索的研究方向。

归根结底，这项工作向我们展示了一件鼓舞人心的事：要让机器理解物理世界，也许不需要把物理公式一条条硬编码进去，只需要给它足够好的数据、足够好的表示方式，再加上一个足够灵活的模型框架，机器就能自己摸索出这个世界运行的规律。这对于未来的机器人、游戏引擎、工程仿真乃至数字孪生都是一个令人期待的信号。有兴趣深入探究技术细节的读者，可以通过arXiv编号2606.27364查阅完整论文，以及访问研究团队的项目主页获取代码、模型权重和视频演示。

Q&A

Q1：PHYSIFORMER和普通物理仿真器有什么区别？

A：传统物理仿真器需要知道物体的密度、摩擦系数、材质参数等完整物理信息，计算量随场景复杂度急剧增加。PHYSIFORMER只需要初始位置、速度和粗略的材质类型，用神经网络一次性生成完整轨迹，对弹性物体比仿真器快五倍以上，还能处理仿真器失败的复杂场景。

Q2：PHYSIFORMER为什么不用自回归方式逐帧预测？

A：自回归方式每一步的预测误差会叠加到下一步，几十帧后误差积累会导致物体形状变形、静止物体漂移甚至冲破场景边界。实验证明自回归模型在用真实数据每帧条件时表现很好，说明根本问题不在学习能力，而在于误差累积。PHYSIFORMER一次性生成全部轨迹，彻底避免了这个问题。

Q3：PHYSIFORMER如何在没有标记物体身份的情况下区分不同物体？

A：PHYSIFORMER通过"物体层面注意力"隐式编码物体身份：把属于同一物体的顶点归为一组，让组内顶点相互关注，自然地学到同组顶点应该保持整体一致性，不需要给每个物体贴标签。这种设计对物体数量和排列顺序都不敏感，因此能直接泛化到训练时没见过的物体数量。

查看全文

http://www.cnnetsun.cn/news/3052751.html