当前位置：首页 > news >正文

GRaD-Nav++：基于视觉语言模型的无人机自主导航系统

news 2026/6/4 2:00:25

GRaD-Nav++ 是一种创新的视觉-语言-动作（VLA）框架，专为无人机导航设计。这个系统能够理解并执行高级自然语言指令，在非结构化环境中实现自主飞行。与传统的无人机导航系统相比，GRaD-Nav++ 具有几个显著特点：

首先，它采用了端到端的架构设计，直接将视觉输入和语言指令映射为低层控制信号。这种设计避免了传统分层系统中常见的"感知-规划-控制"模块间的信息损失和延迟问题。在实际测试中，系统能够在25Hz的频率下实时运行，完全依靠无人机上的机载计算设备（如NVIDIA Jetson Orin Nano）。

其次，系统创新性地结合了三种前沿技术：3D高斯场（3DGS）用于高保真环境建模、可微分强化学习（DiffRL）实现高效策略优化，以及混合专家（MoE）架构增强泛化能力。这种组合使得系统在保持轻量级的同时（整个模型可完全部署在无人机上），实现了83%的已知任务成功率和75%的未知任务泛化成功率。

系统的核心是预训练的CLIP视觉语言模型，它负责将自然语言指令和视觉输入编码到一个共享的512维潜在空间。具体实现上有几个关键技术点：

异步处理机制：考虑到机载计算资源有限，VLM模块以10个时间步为间隔异步更新，而策略网络则以25Hz的频率持续运行。这种设计平衡了计算开销和实时性需求。
特征融合方式：原始CLIP模型在训练期间保持冻结，仅微调一个线性融合层。这既保留了预训练模型的强大语义理解能力，又允许系统适应特定的导航任务。
语义接地实现：通过计算文本和视觉嵌入的余弦相似度（公式11），系统能够动态评估当前观测与指令的匹配程度。如图5所示，这种机制使得无人机甚至能在飞行中响应突发的指令变更。

策略网络采用MoE架构，包含两个专家子网络。每个时间步，路由器会激活top-k（k=2）专家。这种设计带来了三方面优势：

系统使用3DGS作为仿真引擎，相比传统基于网格或神经辐射场（NeRF）的方案具有显著优势：

训练过程采用DiffRL方法，其核心是构建一个完全可微的无人机动力学模型（公式2-4）。关键创新点包括：

混合仿真管线：如图1所示，无人机位姿T=(p,q)同时输入到3DGS渲染器和可微分动力学模块。前者生成RGB观测，后者提供状态转移梯度∂s_{t+1}/∂s_t和∂s_{t+1}/∂a_t。
奖励函数设计：如表I所示，奖励函数包含12项精心设计的条款。特别值得注意的是"参考轨迹跟踪奖励"rtraj，它通过比较实际速度方向与参考方向的内积来引导学习。
课程学习策略：训练分两个阶段进行——先在单一环境中学习800个epoch（约7小时），再在两个环境中交替训练各800个epoch（约14小时）。这种设计显著提升了跨环境适应能力。