大规模3D高斯重建!HeadsUp:10000+受试者训练,无需测试优化
点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎加入!
0.这篇文章干了啥?
本文提出HeadsUp,一种可扩展的前馈式3D高斯人头重建方法,面向大规模多相机拍摄场景,实现高质量人头重建与渲染。核心创新是UV参数化3D高斯表示,将高斯数量与输入图像数量、分辨率解耦,允许使用大量高分辨率多视图做训练。模型在超10000名受试者的内部私有数据集上训练评估,数据集规模相比现有多视图人头数据集高出一个数量级。
HeadsUp 取得当前SOTA重建渲染质量,且对全新身份具备强泛化能力,无需测试时逐身份优化。论文系统探究了身份数量、视图数量、模型容量三个维度的缩放规律,给出渲染质量与计算开销之间权衡的实用结论;同时基于学到的特征空间,实现全新3D身份生成、FLAME表情混合形状人头动画两大下游应用。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures
作者:Evangelos Ntavelis, Sean Wu, Mohamad Shahbazi, Fabio Maninchedda, Dmitry Kostiaev, Artem Sevastopolsky, et al.
论文链接:https://arxiv.org/pdf/2605.04035
2. 摘要
我们提出 HeadsUp,一种可扩展的前馈方法,用于从大规模多相机采集数据中重建高质量3D高斯人头。方法采用轻量化编码器-解码器架构,将多视图输入压缩为紧凑隐表征,再解码为锚定在中性人头模板上的UV参数化3D高斯。
该UV表示将3D高斯数量与输入视图数量、图像分辨率解耦,天然支持用大量高分辨率视图进行训练。我们在超过10000名受试者的内部数据集上完成训练与评估,数据集规模比现有多视图人头数据集大一个数量级。
HeadsUp 达到领先的重建与渲染质量,可泛化到训练未见的全新身份,无需测试时优化。我们系统性分析模型在身份数量、视图数量、模型容量上的缩放行为,提炼出质量与计算开销权衡的实用结论。最后通过两个下游任务验证隐空间的有效性:全新3D身份生成、基于表情混合形状的3D人头动画。
3. 效果展示
图1. 本文提出HeadsUp,一种基于3D高斯的前馈式高质量虚拟人头重建方法。依托万级受试者大规模数据与多样表情数据训练,方法在完全未见过的新身份上仍具备优异渲染能力,可精准还原睫毛、耳饰、牙齿、舌头等高精细高频细节。图中均为训练集未见新身份的渲染结果。 @「3D视觉工坊」编译
4. 主要贡献
提出HeadsUp前馈框架,面向大规模多相机场景实现可扩展、高质量3D高斯人头重建。
设计UV参数化3D高斯表示,把高斯数量和输入视图数、分辨率解耦,适配大规模高分辨率多视图训练。
构建并使用超10000受试者的私有多视图人头数据集,规模远超现有公开数据集一个数量级。
系统性研究身份、视图、模型容量三大维度的缩放规律,给出质量-计算权衡的工程指导。
基于模型隐空间拓展两大下游应用:全新身份生成、FLAME表情混合形状人头动画,验证表征的泛化性与可控性。
5. 基本原理是啥?
问题背景:3D人头重建的挑战
传统多视图人头重建与3D高斯人头方案存在固有局限:
耦合性强:传统3D高斯随输入视图/分辨率升高,高斯数量暴涨,计算与显存开销不可控,无法规模化训练。
泛化弱、依赖测试优化:多数方法为单身份拟合,对新身份泛化差,必须做测试时逐身份微调优化。
高频细节难保持:头发、五官细碎结构、配饰等高频细节难以稳定重建。
难以规模化:无法高效利用万级受试者、海量多视图高分辨率数据做统一预训练。
UV参数化3D高斯表示
HeadsUp 核心创新:将3D高斯锚定在标准中性人头模板表面,通过UV参数化规整分布高斯基元。
核心思想以标准人头模板UV拓扑为约束,把所有3D高斯的属性编码到UV贴图上,高斯总数固定、与输入视图数量和分辨率无关,实现解耦。
具体实现
模板基准:采用标准中性人头模板作为锚定基底,提供固定UV参数化拓扑。
高斯属性UV贴图:网络预测一组规整UV贴图,编码所有高斯的固有属性:
位置偏移、RGB颜色
旋转(四元数)、各向异性尺度
不透明度
光栅采样映射:从UV贴图采样得到模板表面规整分布的3D高斯集合,再映射到3D空间做渲染。
关键优势
完全解耦:高斯总数固定,不随输入视图数、分辨率增加而暴涨。
易规模化:可任意增加高分辨率多视图做训练,开销可控。
细节规整:UV拓扑天然适配人头曲面结构,利于稳定还原发丝、五官等高频细节。
编码器-解码器架构详解
HeadsUp 采用多视图输入 → 编码器隐表征 → 解码器UV高斯贴图的标准编解码范式。
编码器:多视图特征聚合编码器
作用:把多张多视图RGB图像聚合压缩为单一紧凑全局隐特征表征。
对每帧多视图图像提取视觉特征
跨视图做特征聚合与全局上下文融合
输出固定维度全局隐向量/特征表征
解码器:UV高斯贴图生成器
输入全局隐表征,解码输出全套3D高斯属性UV贴图,包含:
空间位置偏移贴图
RGB颜色贴图
旋转四元数贴图
各向异性尺度贴图
透明度贴图
渲染模块:3D Gaussian Splatting 标准渲染
流程:
由UV贴图采样得到规整分布的3D高斯基元
沿用标准高斯溅射光栅化管线做可微渲染
输出对应视角高清人头渲染图
大规模训练数据集与训练策略
内部私有数据集:10000+ 不同受试者,覆盖多样年龄、种族、表情、姿态,多视图同步采集。
数据集规模相比现有FaceScape、BIWI等多视图人头数据集高出一个数量级。
采用端到端可微渲染监督,以渲染图与真值多视图做重建损失约束,配合常规数据增强完成大规模训练。
缩放行为分析
论文从三个正交维度做系统缩放实验,探究性能饱和与开销边界:
维度
核心规律
权衡关系
身份数量
训练身份越多,新身份泛化越强,后期性能趋饱和
身份增加带来训练成本上升,边际收益递减
视图数量
输入视图增多,重建几何与纹理精度提升
视图过多后画质增益极小,推理线性变慢
模型容量
增大网络容量可小幅提升细节还原
参数量过大后收益可忽略,显存与推理开销暴涨
6. 实验结果
实验设置
数据集
内部训练集:10000+ 多视图人头受试者
测试集:完全独立、训练未见过的全新身份,用于泛化测试
对比基线:传统逐身份优化3DGS、NeRF类人头重建、PanoHead等主流方法
评估方式采用视觉定性对比、用户主观偏好研究、渲染视觉细节、新身份泛化能力为主;同时对比不同缩放配置下的画质、收敛性与推理开销。
核心实验结论
重建渲染SOTA相比于传统NeRF、逐身份3DGS、PanoHead等方法,HeadsUp 在新身份的几何完整性、纹理细节、发丝/五官精细度、视角一致性上全面领先。
零优化泛化能力模型前馈推理即可直接作用于全新未知身份,无需测试时微调、无需逐身份优化,泛化能力远优于传统拟合类方法。
缩放实验核心结论
身份数量提升可显著增强泛化,达到一定规模后性能饱和,再增加受试者收益极低。
少量多视图即可达到优质重建,增加视图画质提升有限,但计算开销明显上升。
网络容量存在最优平衡点,过大参数量几乎无画质提升,仅增加显存与推理延迟。
下游应用展示
1. 全新3D身份生成
利用训练得到的平滑隐空间:
隐空间随机采样生成全新、自然合理的虚拟人头身份
任意两身份隐插值,实现平滑人脸渐变
具备身份特征解耦潜力,支持属性编辑
2. 基于FLAME表情混合形状动画
将重建人头与FLAME表情参数结合:
驱动标准表情混合形状,实现自然人脸表情动画
动画过程中身份特征保持稳定,无明显身份漂移
可实现任意表情、姿态的真人级虚拟人头动画
消融实验(忠于论文)
论文通过消融验证核心模块必要性:
UV参数化高斯:框架核心,去掉后无法实现解耦与规模化训练,泛化与细节大幅下降。
多视图特征聚合:跨视图信息融合关键,缺失后多视角一致性变差。
大规模数据预训练:万级数据是强泛化、零优化推理的基础,小数据集无法达到同等效果。
定性结果
HeadsUp 优势:
精准还原复杂发丝、耳饰、牙齿、舌头等高精细细节
多视角渲染一致性强,无明显视角畸变
对全新年龄、性别、种族身份适配性好
局限场景:
极端大角度视角、大面积遮挡场景下重建效果会下降
7. 总结 & 未来工作
总结
本文提出 HeadsUp 可扩展前馈3D高斯人头重建框架,核心依托UV参数化3D高斯表示实现高斯与输入视图/分辨率解耦,依托万级受试者大规模多视图数据训练,实现对全新身份零测试优化的SOTA高质量重建渲染。论文系统完成三大维度缩放实验,给出工程落地的质量-计算权衡方案;同时基于隐空间实现全新身份生成、表情动画两大下游应用,证明表征的有效性与扩展性。
局限性与展望
当前工作聚焦独立人头重建,未来可拓展至全身人体UV高斯重建;进一步优化网络结构与高斯精简策略,降低推理延迟与显存开销,适配实时端侧渲染;同时可结合生成模型、可控编辑方案,实现更细粒度的人脸属性、风格、表情自由编辑。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉方向论文辅导来啦!可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。
添加微信:cv3d001,备注:姓名+方向+单位,邀请入群。
