当前位置: 首页 > news >正文

不止降温,更要稳温:两相液冷,精准控温决定算力兑换效率

常见问题(FAQ

Q:两相液冷能把PUE降到多少?
A: 在液冷区域,局部pPUE可达1.05-1.10;整站PUE典型值约1.15-1.25,取决于自然冷源利用率。

Q:两相液冷相比单相液冷,流量能减少多少?
A: 在同等热负荷下,所需冷却介质流量约为单相方案的1/5至1/9(基于塔能内部测试,不同工况存在差异)。

Q:存量机房改造需要停机吗?
A: 采用模块化两相背板方案,可在不停机条件下完成部署,单机柜施工时间以小时计。

摘要

AI算力密度持续攀升,单机柜功率已突破20kW甚至60kW,传统风冷在高密度下力不从心,单相液冷也逐渐接近其能力边界(尤其在超过30kW/机柜的场景)。热管理不再是配套系统,而是算力能否稳定释放的前提。两相液冷利用相变潜热原理,实现±1.5℃以内的精准控温(实验室条件下可达±1℃),显著减少芯片降频风险,并将局部PUE压低至1.05-1.10。从新建智算中心到存量机房改造,两相液冷正在重塑“热管理”的价值定义——不止降温,更要稳温,让算力真正兑现。

正文

一、行业正在经历一场静默的升级:算力密度飙升,热管理已成瓶颈

1.AI推动机柜功率突破临界点

过去,主流数据中心单机柜功率普遍在3-8kW之间,风冷尚可应对。但随着AI训练集群和大模型推理场景爆发,GPU服务器密集部署,单机柜功率已普遍迈过20kW,部分智算中心甚至达到40-60kW,局部热点瞬时功耗逼近百千瓦级。这种密度下,传统风冷在高密度场景中已不足以应对,单相液冷也正接近其能力边界。

2.热管理不再是配套系统,而是算力释放的前提

客户采购的不再是“一台服务器能不能运行”,而是“这台服务器能不能7×24小时满载运行”。当芯片因温度波动频繁触发热降频,训练任务中断重跑,推理延迟波动剧烈——此时,热管理的稳定性直接决定了算力的实际兑现率。行业关注点已从“有没有冷却”转向“能不能稳得住”。

3.绿色政策与PUE考核进一步放大热管理压力

“东数西算”工程对PUE提出严苛要求,多地新建数据中心PUE须低于1.25,甚至向1.1迈进。与此同时,冷却系统的能耗占比在整体IT能耗中持续攀升,传统高功耗冷却方式不仅推高运营成本,更难以满足双碳目标下的可持续发展要求。

二、行业的真实困境:不是不想改,而是不敢改、改不动

1.新建项目面临未来三年就过时的焦虑

许多智算中心在规划阶段便意识到当前单相液冷方案难以支撑未来扩容需求。一旦三年后AI算力密度再次翻倍,现有冷却系统将无力承载。客户担心的不是当下能不能用,而是这套系统能否支撑未来3-5年的技术演进。

2.存量机房改造困在停机即损失的死局

大量已建成的数据中心面临“有机柜、有电力、有空间,唯独缺散热能力”的尴尬。若采用传统改造方式,需长时间停机、拆除重建,业务中断成本远高于硬件投入。客户迫切需要一种“在线可升级”的热管理路径。

3.运维团队疲于奔命,缺乏主动干预手段

即便部署了液冷系统,许多运维人员仍处于“报警才响应”的被动状态。温度波动、局部热点、冷却能耗异常等问题往往滞后发现,难以预判。

三、真正值得被关注的解决方案:从散热硬件控温系统的跃迁

1.两相液冷的本质优势,在于相变潜热带来的精准控温能力

与单相液冷依靠显热带走热量不同,两相液冷利用液体蒸发吸热的相变过程,可在极小温差下转移巨量热负荷。实验数据显示,同等热流密度下,两相系统所需冷却介质流量仅为单相方案的1/5至1/9。更重要的是,换热过程中冷板温度近乎恒定,天然具备±1.5℃以内的控温精度,基本消除芯片局部过热问题。

2.航天级技术背书,验证极端环境下的可靠性

该技术早在上世纪90年代便应用于航天器红外探测器、高功率雷达等对温控极为敏感的设备中,在真空、失重、剧烈温变等极端条件下仍能稳定运行。

3.硬件安装软件定义温控的范式转变

领先的解决方案将物联网SaaS平台与热管理系统深度融合,通过实时采集芯片温度、冷却液流量、泵组功耗等数据,结合AI算法动态优化运行参数,实现从“被动散热”到“主动控温”的跨越。

四、最终交付的不是一套设备,而是一套可持续兑现算力的能力

1.对新建智算中心:交付未来可扩展的确定性——120kW+超高密度机柜预留热管理冗余,pPUE可控制在1.05-1.10

2.对存量机房:交付不停机升级的可行性——湖南长沙某机房(应客户要求匿名)通过该方案,PUE1.8降至1.3,释放近40%潜在算力容量。

3.对运维团队:交付可预测、可优化的运营体系——平台可实现故障预警、寿命预测、能效寻优。

4.未来的竞争,不再是谁更会散热,而是谁更能控温。两相液冷用相变潜热的物理本质,守住±1.5℃以内的温度稳定,让算力兑现效率真正落地。

免责声明:本文引用的行业趋势及客户需求分析基于塔能科技市场调研与公开信息整理。方案效果受机房环境、负载类型、改造条件等因素影响,具体收益以项目现场评估为准。

http://www.cnnetsun.cn/news/2661291.html

相关文章:

  • 【限时解密】Gemini 2.5科研专属模型未公开API参数:控制学术严谨度的7个温度系数(含IEEE模板校验脚本)
  • Loong:具备观察-行动自适应上下文选择机制的类人长文档翻译智能体
  • 告别自动更新烦恼:手把手教你配置Ubuntu 20.04的APT,实现按需更新
  • KMS智能激活终极方案:一键永久激活Windows与Office全系列
  • Whisper-WebUI:从零开始搭建专业级语音识别系统的完整指南
  • 暗黑破坏神2存档编辑器:免费Web版工具完全指南
  • League Akari 完全指南:如何为英雄联盟玩家构建终极本地化工具箱
  • 基于ESP32与NEO-6M GPS模块自制低成本高精度RC车测速仪
  • 别再让服务器偷偷耗电了!手把手教你用lspci和setpci命令检查与配置PCIe ASPM省电模式
  • 基于ESP8266与WS2812B的物联网彩虹时钟天气显示系统开发实战
  • 乔布斯教会耄耋的事:在《一念成仙》,耄耋如何定义“最好的产品”
  • Unity UI避坑指南:TMPro文本框动态伸缩时,背景图为什么总对不齐?
  • Motrix WebExtension 高效方案:5步实现浏览器下载加速与管理
  • 湖南麒麟3.3-3B系统硬盘救急:紧急模式和单用户模式下的xfs_repair实操指南
  • 手机拍照暗光不糊的秘密:拆解索尼Quad Bayer传感器,从4合1像素到硬件Remosaic
  • 如何快速获取抖音无水印视频:3种简单方法完整指南
  • 3步实现网页到Figma设计稿的无缝转换:HTML To Figma实战指南
  • 揭秘聪明钱交易:3分钟掌握Python量化交易终极武器
  • 别再死记硬背了!用Kettle+MySQL手把手还原一个‘客户忠诚度分级’复杂存储过程
  • 5分钟搞定200+小说网站:novel-downloader离线阅读终极指南
  • UniApp + Painter实战:从‘社交裂变’到‘数据报告’,解锁小程序图片生成的3个高级应用场景
  • 树莓派5复古游戏站搭建全攻略:硬件选型、系统对比与性能调优
  • 综合算法 XXVII | 系统设计基础
  • SViG:基于相似度阈值的动态图构建,提升视觉图神经网络性能
  • PCA9306双向电平转换芯片:解决Arduino与3.3V I2C传感器通信难题
  • Gemini多模态对齐失效诊断与修复(工业级部署避坑指南)
  • Windows电脑装了Git却用不了?手把手教你配置环境变量(附路径查找方法)
  • 如何快速实现Android设备安全检测:4层级完整性验证完整指南
  • 如何在本地安全导出浏览器Cookie:Get cookies.txt LOCALLY完整指南
  • 硬件调试革命:3大技术突破让AMD系统稳定性提升5倍