当前位置: 首页 > news >正文

NVIDIA Merlin三重反序列化漏洞突袭,RCE攻击威胁千亿级数据管道

作为NVIDIA推出的千亿级推荐系统核心框架,Merlin凭借GPU加速技术已成为电商、广告、流媒体领域的“效率引擎”——其覆盖数据预处理、模型训练、低延迟部署的全链路能力,不仅将TB级数据处理周期从数天压缩至分钟级,更已深度嵌入腾讯、美团、Snap等企业的核心业务,支撑着日均百亿次的推荐请求。然而,2025年以来的三次高危漏洞爆发,却为这一“AI基建支柱”撕开了致命缺口:9月披露的CVE-2025-23298(CVSS 9.8分)与12月曝光的CVE-2025-33213/33214(均为CVSS 8.8分),均直指反序列化这一核心安全短板,攻击者可通过恶意构造的模型文件或数据 payload,实现远程代码执行(RCE),直接接管AI训练管道与千亿级用户数据。这一系列漏洞的连锁爆发,不仅敲响了Merlin用户的安全警报,更暴露了AI框架行业长期存在的“重性能、轻安全”的深层隐患。

漏洞深度解析:三重陷阱精准命中AI核心流程

1. 9月“致命一击”:训练器组件的root权限漏洞(CVE-2025-23298)

该漏洞直指Transformers4Rec库的load_model_trainer_states_from_checkpoint核心函数,其本质是对Python pickle模块的不安全使用——该函数调用PyTorch的torch.load()时未启用weights_only=True安全参数,而pickle模块的序列化机制允许嵌入可执行指令,攻击者可通过在模型检查点文件中植入恶意代码,利用__reduce__方法构造攻击链。由于模型 checkpoint 共享是推荐系统训练中的常规操作(如多团队协作、跨节点分布式训练),恶意文件可通过合法流程进入AI管道,一旦被加载,攻击者即可获得root级权限,实现对训练集群的完全控制,包括窃取核心推荐模型、篡改训练数据、劫持GPU算力用于挖矿等恶性行为。

2. 12月“连环漏洞”:全流程组件的安全失守

  • CVE-2025-33214(NVTabular工作流组件):作为Merlin的数据预处理核心,NVTabular负责TB级表格数据的清洗与转换,其工作流组件的反序列化逻辑未对输入数据进行任何校验。攻击者可构造恶意序列化对象,通过数据提交接口注入payload,在数据预处理阶段触发代码执行——这意味着攻击可早于模型训练发生,直接污染整个数据集,导致后续推荐结果失真(如恶意推荐违规内容)或泄露用户隐私数据(如电商用户的消费记录、流媒体观看偏好)。
  • CVE-2025-33213(Transformers4Rec训练器组件):与9月漏洞同源但攻击路径不同,该漏洞无需依赖模型 checkpoint 共享,仅需通过网络向训练器组件发送恶意序列化数据即可触发。由于Transformers4Rec支持多节点分布式训练,漏洞可通过集群网络快速扩散,导致整个训练集群沦陷,且攻击过程无需身份验证,仅需少量用户交互即可完成远程利用。

攻击面全景:从数据管道到业务根基的连锁风险

Merlin框架的全链路特性,使其漏洞的攻击面覆盖AI推荐系统的核心环节,潜在危害远超单一组件漏洞:

  • 数据层风险:NVTabular的预处理漏洞可导致原始数据被篡改,不仅影响模型训练效果,更可能引发业务决策失误(如电商推荐错误商品导致用户流失)或合规风险(用户隐私数据泄露)。
  • 模型层风险:训练器组件漏洞直接威胁推荐模型的完整性,攻击者可窃取经过海量数据训练的高价值模型(如电商的转化率预测模型、广告的精准投放模型),或植入后门逻辑(如特定用户群体优先推荐恶意链接)。
  • 基础设施风险:GPU集群作为高价值算力资源,一旦被劫持,可能被用于加密货币挖矿或DDoS攻击,造成巨额算力损耗——Postmates等企业曾通过Merlin将训练成本降低95%,而漏洞可能让这些成本通过恶意算力消耗加倍回流。
  • 业务连锁反应:对于日均处理5亿+活跃用户的流媒体平台或万亿级交易规模的电商平台,AI管道瘫痪或被篡改可能直接导致服务中断、交易异常,单次攻击的经济损失可达千万级。

行业共性危机:AI框架反序列化漏洞的“多米诺骨牌”

NVIDIA Merlin的漏洞并非个例,而是AI框架行业的系统性安全隐患。2025年以来,Meta Llama、微软Sarathi-Serve、vLLM、TensorRT-LLM等主流框架均被曝光同类反序列化漏洞,根源在于三大行业通病:

  1. 代码复用导致风险扩散:多个框架直接借鉴或复制了存在安全缺陷的序列化逻辑,如SGLang的漏洞代码标注“改编自vLLM”,导致“ShadowMQ”不安全模式跨项目蔓延。
  2. 序列化工具的滥用:Python pickle、ZeroMQ的recv_pyobj()等工具因便捷性被广泛使用,但这些工具本身设计未考虑不可信数据场景,允许执行嵌入式代码,成为漏洞高发点。
  3. 安全机制的滞后性:AI框架开发聚焦于性能优化(如并行计算、延迟降低),安全措施多为“补丁式”补充——即使PyTorch早在1.8版本引入weights_only=True安全参数,仍存在TorchScript模型的绕过漏洞,而Merlin等上层框架未及时跟进强化防护。

多维度防护体系:从应急修复到长期安全构建

1. 紧急修复措施:优先阻断已知漏洞

  • 针对CVE-2025-23298:已使用Merlin Transformers4Rec的用户需立即升级至包含安全修复的版本,同时在所有调用torch.load()的场景强制添加weights_only=True参数,阻断pickle恶意代码执行路径。
  • 针对12月双漏洞:NVTabular用户需更新至包含5dd11f4提交记录的版本,Transformers4Rec用户需升级至876f19e提交记录及以上版本,通过官方GitHub仓库获取修复代码。
  • 临时防护:在未完成升级前,禁用公共网络对AI训练集群的访问权限,严格校验模型 checkpoint、预处理数据的来源,仅允许可信内部节点的文件传输。

2. 长效安全机制:构建AI管道的“安全护城河”

  • 序列化层防护:替换pickle等危险工具,优先使用JSON、msgpack等纯数据格式;若必须使用pickle,需通过自定义SafeUnpickler类实现白名单机制,仅允许反序列化可信类。
  • 数据校验层强化:在数据预处理、模型加载等关键节点,增加数据完整性校验(如数字签名)和恶意payload检测,阻断构造的恶意序列化对象。
  • 运行环境隔离:采用沙箱机制运行模型训练与数据处理进程,限制进程权限,即使漏洞被利用,也无法突破沙箱获取系统核心权限。
  • 供应链安全管控:建立AI框架与依赖库的安全审计机制,定期扫描第三方组件漏洞,避免使用来源不明的代码片段或分支版本。

前瞻性展望:AI框架安全的未来演进方向

随着AI技术在核心业务中的深度渗透,“安全左移”将成为AI框架发展的必然趋势:

  • 框架原生安全设计:未来的AI框架将把安全机制嵌入底层架构,如默认启用安全序列化参数、内置恶意代码检测模块,从源头降低漏洞产生的可能。
  • 模型安全生态完善:将出现专门的AI模型安全检测工具,实现训练前漏洞扫描、运行时行为监控、异常攻击告警的全生命周期防护。
  • 行业安全标准统一:针对AI框架的序列化、模型共享、分布式训练等场景,将形成统一的安全规范,避免因厂商各自为战导致的安全短板。
  • 供应链安全常态化:开源社区与企业将建立更严格的漏洞披露与修复机制,通过自动化工具实现依赖库的实时安全更新,阻断漏洞扩散路径。

结语:AI时代,安全与性能需“并驾齐驱”

NVIDIA Merlin的三重漏洞警示我们,AI基础设施的安全防线不能仅依赖事后补丁。对于企业而言,在追逐GPU加速带来的效率提升时,更需建立“性能与安全并重”的理念——推荐系统承载的不仅是海量数据,更是用户信任与业务根基。当前,所有Merlin用户需立即启动漏洞排查与升级工作,同时将AI管道安全纳入整体安全战略,通过技术防护、流程规范、人员培训的多维度建设,筑牢智能时代的安全基石。未来,只有将安全内化为AI框架的核心基因,才能让技术创新真正服务于业务发展,而非成为攻击者的“突破口”。

http://www.cnnetsun.cn/news/80368.html

相关文章:

  • Flutter动态UI开发终极指南:用JSON构建可配置界面
  • PurestAdmin:终极前后端分离权限管理框架快速入门指南
  • 终极AI开发指南:5步构建自主可控的智能系统
  • Pascal VOC 2012数据集终极下载指南:告别缓慢下载的完整解决方案
  • 终极指南:WhisperLiveKit 实时语音转录与说话人识别完整教程
  • 周云杰四年“苦战”,海尔智家2500亿市值魔咒何时能破?
  • AI日报 - 2025年12月16日
  • 百度12年员工,65万毕业
  • 阿里云副总裁黄非近期离职,本年已有多名P10离职
  • 为什么webMAN MOD被称为PS3玩家的终极完整解决方案?
  • CloudStream媒体文件管理终极指南:从混乱到有序的完整解决方案
  • 时序数据可视化终极指南:AI工具让数据分析如此简单
  • 智能体协作框架设计:多个Anything-LLM实例分工合作
  • Gin 真的是“真菌”吗?—— 一篇引发热议的“反 Gin”檄文解读
  • 在海康工作是怎么样的?
  • 2025年12月语言榜单揭秘:Python 确实强得离谱!
  • Ollama模型列表查看及导入Anything-LLM的方法详解
  • 被困在算法里的不只是外卖骑手,还有广大自媒体人
  • 鼠鬚管输入法完整指南:快速安装与个性化配置
  • GPT-5.2 正式发布!开启 AI 职场效率革命新时代
  • VentoyPlugson终极指南:快速掌握图形化配置工具的完整使用方法
  • 校园外卖|基于springboot + vue校园外卖系统(源码+数据库+文档)
  • 企业工资管理|基于springboot + vue企业工资管理系统(源码+数据库+文档)
  • Node.js多线程调试实战:从困惑到精通的完整指南
  • 计算筑基 智创未来,华为以数智力量擘画三湘大地创新蓝图
  • 7、高级计算器:从语法解析到函数求值的全面解析
  • 9、MySQL SQL 解析器深度剖析
  • Cartographer时间同步技术:如何解决多传感器数据融合的核心难题
  • 43、高效运维与快速输入技巧
  • 17、Bison语法错误处理与位置信息应用