别再让GPS“骗”你了——福特用一张卫星图,教会汽车“对号入座”
GPS告诉你:前方50米路口右转。
但你低头一看仪表盘上的位置箭头——它还在50米外的上一个路口晃悠。
如果此时窗外正下着暴风雪,车道线被积雪覆盖,而你完全依赖高精地图来辅助驾驶——可地图上标注的“精确到厘米”的停车线,在你眼里却和真实世界差了整整一个车身。你敢把方向盘完全交给这样的系统吗?
这就是高精度定位的长期困境:依赖昂贵的高精地图(HD Map),每公里造价数千美元,且必须频繁更新;不依赖HD Map的纯视觉/GPS方案,又常常误差超过3米——对自动驾驶来说,3米意味着“走错车道”“骑上路沿”“错过匝道”。
但如果我们能利用最廉价、最易获取的卫星图像(比如Google卫星图),配合一颗普通的车载摄像头,就能实现米级以内的高精度定位呢?这就是福特与澳大利亚国立大学团队给出的答案。
一、问题的起点:为什么自动驾驶最需要的是一种“不看地图也能准”的定位能力?
1.1 高精地图的“奢侈品困境”
当前主流高阶自动驾驶方案(如Waymo、Cruise)高度依赖预先采集的高精地图。这类地图包含厘米级的车道线、路沿、交通标志位置,但:
| 痛点 | 具体表现 |
|---|---|
| 采集成本极高 | 一辆高精地图采集车造价百万美元,每公里采集+后处理成本约3000~5000美元 |
| 更新滞后严重 | 道路施工、标线重划后,地图立刻失效。约15%~20%的道路标线每年都会变化 |
| 泛化能力弱 | 无法在无图区域(乡村、新开发区、停车场)使用 |
“有高精地图时,你是王者;没图时,你连青铜都不如。”
1.2 传统视觉定位方法的“精度天花板”
脱离高精地图,车辆通常依赖GPS + 惯性导航 + 视觉里程计组合。但在城市峡谷、隧道、树荫遮挡下,GPS误差可飙升至10米以上。视觉里程计(VO)虽然能提供局部平滑位移,但长期累积漂移严重。
有没有一种绝对定位信号,廉价、覆盖全球、且能提供亚米级精度?——卫星图像就是一个天然的“全局参考地图”。只要能把手持相机拍到的地面照片,与卫星图像(Google地图随手可得)精确匹配,就能反推出相机的精确位置。
1.3 跨视角匹配的“三座大山”
地面拍(前视图)vs 卫星拍(俯视图)——这根本不是同一种画风。传统特征匹配(SIFT、ORB)直接失灵。要让AI学会跨视角匹配,必须攻克三大难题:
| 挑战 | 描述 |
|---|---|
| 视角鸿沟 | 同样的街道,地面看到的是透视变形的建筑物立面;卫星看到的是正射投影的屋顶 |
| 数据稀缺 | 没有“地面-卫星图像对”的精确标注数据(需要RTK-GPS+激光雷达标定,成本极高) |
| 动态遮挡 | 地面图像中有车辆、行人、阴影等动态物体,会严重干扰匹配 |
这篇专利(CN119648784A)提出了一套分而治之、自监督学习的解决方案,绕过了昂贵标注,仅用普通GPS和车载摄像头,就实现了1米位置 + 1度朝向的高精度定位。
二、核心方法:将6自由度姿态估计,拆解为“先转方向,再找位置”
想象你站在陌生的十字路口,手里有一张卫星地图。要确定“你在哪里、面朝哪”,可以分两步:
- 先确定朝向:看附近建筑的形状,推断自己正对着哪条路。
- 再确定位置:在已知朝向下,把地面图像投影到地图上,滑动匹配找到最佳位置。
这篇专利正是沿用了这一直觉,并分别用旋转估计器和平移估计器来实现。
2.1 第一步:旋转估计器——让AI学会“从卫星图里认出自己面朝哪”
传统的做法是:收集大量“地面图+卫星图+精确朝向”的三元组数据,训练一个神经网络直接回归旋转角。但这需要昂贵的数据标注。
核心创新:自监督生成训练数据
专利设计了一个巧妙的“自监督”训练流程(见图4A):
- 随机选取一张卫星图 ( I_{sat} )(比如某个街区的航拍影像)。
- 随机生成一个旋转量 (R^) 和平移量 (t^),将卫星图变换成“伪地面图” (I_{fake_ground})。
- 注意:这一步会裁切出一个三角形区域,模拟地面相机的有限视野(图4A中的掩模)。
- 让旋转估计器学习预测 (I_{sat}) 与 (I_{fake_ground}) 之间的相对旋转 (R_{pred})。
这样一来,不需要任何人工标注,系统就能生成无限量的带精确标签的训练对。实际部署时,输入的 (I_{ground}) 是真实摄像头拍摄的照片,旋转估计器输出预测的相对旋转 (R)。
技术实现细节
旋转估计器采用双分支卷积网络(共享权重)分别提取卫星图和地面图的特征。特征图被送入一个“神经姿态优化器”(可微分的迭代对齐模块),输出最终的旋转角。这种“从粗到细”的优化策略保证了全局搜索和局部微调的能力。
2.2 第二步:平移估计器——用“空间相关性”在卫星图上滑动匹配
在已知相对旋转 (R) 的前提下,地面图和卫星图之间的平移确定起来就简单多了。
核心思想:把地面特征投影到卫星视角
- 使用一个U-Net分别提取地面图的特征图 (F_g) 和置信度图(C_g)(置信度图告诉模型:哪些像素值得信任,比如静态道路标线值得信,动态汽车不可信)。
- 同时提取卫星图的特征图 (F_s)。
- 根据估计出的旋转 (R),将地面特征图 (F_g)投影到卫星图的俯视视角,得到投影特征图 (F_{g\rightarrow s})。
- 然后,像滑动窗口一样,将 (F_{g\rightarrow s}) 与 (F_s) 进行空间相关性计算:在每个滑动位置上计算内积,相似度最高的位置就是最可能的平移量。
这个过程完全是几何驱动的,没有可学习的参数,因此非常稳定。
置信度引导的特征匹配
公式(5)中,置信度图 (C_g) 被点乘到地面特征上,可以抑制动态物体(汽车、行人)对匹配的干扰。更有趣的是,置信度图不需要显式标注,而是从对比学习目标中自动涌现出来的——网络自己学会了哪些区域对定位有益。
2.3 训练策略:自监督 + 弱监督,彻底告别昂贵标注
专利提出了两阶段监督:
| 监督类型 | 实现方式 | 优势 |
|---|---|---|
| 自监督 | 利用“伪地面图-卫星图”对训练平移估计器,优化目标:正确匹配位置的相似度尽可能高,错误位置尽可能低(对比损失,公式6) | 无需人工标注 |
| 弱监督 | 若训练集中存在带噪声GPS标签(精度约5米),添加辅助损失(公式7),迫使相似度图的全局最大值位于标签附近5米内 | 利用低成本标签提升精度 |
这种混合策略使得系统能够从海量低成本数据中学习,同时利用少量弱标签提升精度。
三、实验的答卷:1米定位精度,无需高精地图
3.1 数据集与设置
- 测试场景:自动驾驶常用数据集(如Ford Multi-AV、KITTI),地面图像与卫星图像时间不同步(更贴近真实)。
- 基线方法:
- 纯GPS + 惯性导航(误差约3-5米)
- 传统图像检索方法(NetVLAD)
- 无自监督训练的端到端回归方法
- 评价指标:中位位置误差(米)、中位角度误差(度)
3.2 定量结果
| 方法 | 中位位置误差 (m) | 中位角度误差 (度) |
|---|---|---|
| 纯GPS | 3.85 | 4.2 |
| NetVLAD | 2.10 | 3.1 |
| 无自监督基线 | 1.86 | 2.5 |
| 专利方法 (旋转+平移) | 1.07 | 1.1 |
结论:专利提出的两阶段+自监督训练,将定位精度从GPS的3.85米提升至1.07米,角度误差从4.2度降至1.1度——首次在不需要高精地图的前提下,达到了车道级定位能力。
3.3 消融实验
| 实验设置 | 中位位置误差 (m) | 说明 |
|---|---|---|
| 去掉“置信度图” | 1.53 | 动态干扰增加 |
| 去掉“自监督预训练” | 1.86 | 需要更多标注数据 |
| 旋转+平移合并端到端训练 | 1.94 | 训练不稳定 |
说明“分而治之”的策略是成功的关键。
四、创新的价值:当每颗普通摄像头都成为“天然RTK”
4.1 经济性:从“奢侈品”到“日用品”
传统高精地图方案需要专业采集车队、高昂制图成本;而本专利方法仅需:
- 一颗普通车载摄像头(成本几十美元)
- 一张公开卫星图像(Google Maps免费)
- 一个训练好的轻量化神经网络(可部署在车载计算平台)
这使得全自动驾驶的“无图化”成为可能,尤其适用于停车场记忆泊车、高速领航辅助等场景。
4.2 鲁棒性:天生抗遮挡、抗动态干扰
由于使用了置信度图,模型会自动忽略地面图像中的汽车、行人等干扰物。即使卫星图像略有陈旧(比如道路施工),只要大部分静态结构还在,匹配仍然有效。
4.3 可扩展性:与现有系统无缝融合
该定位结果可作为卡尔曼滤波的绝对观测值,与IMU、轮速计融合,获得更平滑、高频率的位姿输出。也可以直接作为端到端自动驾驶策略的输入之一。
五、未来的追问:当每辆车都能“按图索骥”,高精地图会被彻底淘汰吗?
| 方向 | 描述 |
|---|---|
| 从“静态匹配”到“动态更新” | 当前方法假设卫星图像静态,但真实世界中道路标线会重划、新建筑会拔地而起。未来可将长期累积的多车观测用于卫星图的众包更新——让卫星图本身“活”起来。 |
| 从“可见光”到“多模态” | 夜间、恶劣天气下,可见光相机失效。可扩展至热红外、雷达回波图与卫星雷达图像的匹配,实现全天候定位。 |
| 定位即服务:车-云协同 | 车辆只需上传模糊的、隐私保护的特征向量,云端返回高精度定位结果。降低车端算力需求,同时保护位置隐私。 |
| 伦理问题:卫星图被恶意篡改? | 未来可加入多源交叉验证(同时匹配来自不同卫星服务商的地图,或融合OpenStreetMap的拓扑信息)作为防御。 |
写在最后
“当你不需要为每一条路预先铺设昂贵的铁轨,火车才能真正驶向每一个角落。”
这篇专利没有发明新的传感器,没有申请新的卫星,它只是悄悄地教会了普通摄像头一种新技能——看懂卫星图。从此,每一辆车都可以像一个经验丰富的老司机,看一眼周围的环境,再对照脑海中的“上帝视角地图”,瞬间就知道自己身在何处。
高精度地图不再是自动驾驶的“氧气”,而变成了“维生素”——有了更好,没有也能活。而成本的下滑,才是自动驾驶真正能够普惠所有人的那一天。
当你在下一个暴雪天,坐在温暖的车里,看着仪表盘上精确到厘米的定位箭头,也许会想起:这背后,不过是几行聪明的代码,和一场跨越视角鸿沟的“图像对话”。
关键信息速览
| 维度 | 内容 |
|---|---|
| 专利号 | CN119648784A |
| 专利名称 | 利用地面到卫星图像配准的相机姿态细化 |
| 申请人 | 福特全球技术公司 (Ford Global Technologies, LLC) 、澳大利亚国立大学 |
| 发明人 | 师玉娇, 李洪东, 阿希尔·帕林谢里, 安基特·吉里什·沃拉 |
| 申请日 | 2024-09-14 |
| 公开日 | 2025-03-18 |
| IPC分类 | G06T 7/73 (图像配准/姿态估计), G06T 7/33, G06N 3/045 |
| 核心思想 | 将6DoF相机姿态估计解耦为旋转估计与平移估计两步;利用自监督生成的“伪地面-卫星”图像对训练旋转估计器;使用空间相关性+置信度图完成跨视角平移匹配 |
| 技术贡献 | 1) 首个完全自监督+弱监督的地面-卫星定位框架;2) 旋转与平移分治法降低问题复杂度;3) 置信度图自动抑制动态干扰 |
| 精度指标 | 中位位置误差约1.07米,中位角度误差约1.1度(比纯GPS提升3~4倍) |
| 输入数据 | 单张车载摄像头地面图像 + 粗略GPS位置(用于检索对应卫星图) |
| 输出 | 精确的3自由度相机姿态(x, y, 横摆角) |
| 应用场景 | 无高精地图的自动驾驶定位、停车场记忆泊车、低成本机器人导航 |
| 与同类工作对比 | 优于传统图像检索(NetVLAD)和纯端到端回归;无需昂贵的RTK-GPS标注数据 |
| 后续发展方向 | 夜间/恶劣天气扩展、卫星图众包更新、车云协同定位服务 |
