当前位置: 首页 > news >正文

AI 写芯片写了 18 小时:机房还在按「短跑」配散热吗?

6 月下旬,豆包Seed 2.1上线火山方舟。有一条案例在技术圈传得挺凶:16×16 的 Tiny NPU Tile,Agent 跑了近 18 小时、9 轮迭代,交出 6 个模块、1303 行 RTL。

我第一反应不是「模型又强了」——是谁给它加了一宿班。这 18 小时里,算力多半一直顶在高位,芯片热得很实在。以后谈机柜和机房,心里得按这种节奏留余量:不是训练完就能让 CDU 歇会儿的那种了。


一、从「聊几句」到「跑一宿」,负载节奏真的变了

很多机房脑子里还是训模型那套,我也理解:过去确实好使。

  • • 拉起一个大 job,满负载几小时到几天
  • • job 一停,负载掉下来,一次侧也能跟着松口气——CDU 不用一直顶在高位。

Agent 长任务完全是另一回事:

训练(短跑)Agent(马拉松)
时长有高峰,中间能歇小时级连轴转,常 overnight
负载峰值高、间歇明显中高负载长时间贴着
散热容易犯的错峰值够就行只盯峰值、忽略平均热
机房体感「偶尔吵一阵」「怎么一直热、一直费电」

说白了:AI 越来越像睡在你机房的同事,不是聊两句就走的访客。云厂推理算力也在加码——和 6/25 推理算力那篇 一条线,今天不展开表,就记一句:负载更像长跑,不像冲刺。


二、按短跑定散热,跑马拉松一定吃亏

1. CDU 只按峰值买,平时按平均跑——迟早顶格

Agent 区长时间中高负载,一次侧和 CDU 若按「偶尔满负荷」留余量,平时就容易顶格、降频或猛加泵。PUE 难看不说,机房那动静,待久了真的烦。

2. 训练区和 Agent 区共用一套「分时供冷」——两边都不舒服

训练 job 结束能歇;Agent 区像常开冰箱。一套调度,A 区浪费、B 区不够。后面得分区供冷、分区计量,不是 PPT 里写一句「全楼液冷」就踏实了。

3. 还指望风冷「补一点」——越来越不现实

机柜功率档往上走,液冷基本是主路径;Rubin 这一代更是45℃ 温水液冷往量产走——英伟达把「温水进机房」写进平台规格,不是噱头,是常开高负载下的现实选择。Agent 叠在高密柜上,风冷补刀的空间,说实话越来越小


三、定散热方案前先问:这排机柜是短跑,还是马拉松

别被「冷水」两个字带偏——现在新建高密柜,讲的是冷板 + CDU + 一次侧,很多规格已经是40~45℃ 温水在循环,不是你以为的「越冷越好」。

先问一句:

这排机柜,是偶尔满负载,还是长时间中高负载?

  • 短跑:峰值 + 间歇,一次侧和 CDU 还能跟着喘口气。
  • 马拉松平均热 + 峰值一起算,温水回路和电都要按常开入账;6/23 2300W 热栈 里说的堆栈加价,很多就卡在这——不是芯片突然变热,是热根本停不下来,CDU 也下不来。

这种常开负载,长期账单往往在泵功和一次侧,不是少拧几个快接头。我们做过120kW 级混部对比(冷泉能控现场):同样负载,两相冷板侧所需流量可低到单相约 1/3量级,靠相变潜热带走热;UQD 个数仍看冷板路数、并联和冗余——流量下来,接头未必少。这一点我踩过坑,别被销售 PPT 带跑。


四、跟你有什么关系

  1. 1.AI 涨价、限流——背后常有电和散热,不只是模型贵;你付的 Token,有一部分是在买机房能一直扛住
  2. 2.绿色数据中心宣传——Agent 区常开,PUE 差 0.1都是真电费;温水液冷也不是「免费午餐」,回路常开就得一直转。

收束

18 小时 RTL只是开头:长任务 = 散热马拉松。机房若还按训练短跑定 CDU 和一次侧,会先卡在常开的热和电上——不是模型不够聪明,是基础设施还在按旧节奏喘气,挺浪费的。

你那边训练峰值Agent 常开,哪个更让你头疼?留言区投一票,下篇写混部机房怎么分区


往期:推理算力 +122%(06-25) · 2300W 热栈(06-23) · SpaceX 散热(06-18)

两个常见追问(简答)

Q1:45℃ 温水,会不会「不够冷」、芯片更热?
A:冷板侧有自己的工质循环,45℃ 指的是一次侧温水,不是 die 表面温度。平台写 45℃,是在高密 + 常开下换PUE 和一次侧经济性——别用家用空调「越低越好」去套机房。

Q2:训练区和 Agent 区,能不能共用一台 CDU?
A:物理上可以,逻辑上要分开想。共站可以,但要分回路、分计量、分冗余;否则训练区间歇时省下来的电,会被 Agent 区常开吃掉,账永远算不清。


http://www.cnnetsun.cn/news/3076929.html

相关文章:

  • Hermes Agent 保姆级教程:本地部署、核心概念与实战避坑指南
  • 巴别鸟生成下载Link实测:给AI工具和自动化脚本用的直连下载,开发者必知
  • AI 写简历,AI 筛简历,没人被录用
  • 如何快速构建轻量级多模态AI:3步实现模型融合的终极指南
  • 2026年毕业论文写作全流程指南:从选题到答辩的7个关键步骤
  • SOPS:密钥管理工具,22k Star
  • TestNG异常测试:从核心机制到实战应用,构建健壮自动化测试
  • AIGC率爆表怎么办?10款降AI率软件实测(含免费降ai率工具)真实避坑指南
  • 永川同传第1天收工,跟同传搭档吃这家火锅。味道还行,服务跟不上,我们的冰汤圆吃到最后才告知没有…服务员各忙各的,看起来都在忙,客人点单 想加菜 买单的时候又不见服务员了…味道真可以。
  • Switch case不再仅限int类型
  • 2026年桌面风扇推荐:三款不同功能定位机型,按需选择不踩坑
  • 2026年AI企业服务系统五大评测:乔掌门AI与同类品牌深度对比排名推荐
  • AI率高怎么降?10款降AIGC软件盘点,含免费方案
  • TMSpeech完整教程:Windows本地实时语音转文字的终极解决方案
  • 【HCIA-AI笔记(微认证3)】4、Agent未来展望
  • Linux 开发工具:yum、vim 与 gcc 实操指南
  • MVT:手机取证工具,查你的手机有没有被监控
  • 百万年薪、创始股权,OpenCSG招聘最懂AI的应届生
  • TVA与具身智能深度融合的内在必然性(5)
  • 计算机Java毕设实战-基于 SpringBoot 的二次元游戏周边购物商城系统的设计与实现 基于 SpringBoot 的游戏周边商品买卖管理【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • 【毕业设计】基于 SpringBoot 的动漫游戏周边线上交易服务系统的设计与实现 基于 SpringBoot 的游戏手办周边销售管理系统(源码+文档+远程调试,全bao定制等)
  • OpenCV 核心算法全套原理详解(滤波 / 阈值 / 直方图 / 边缘 / 轮廓 / 形态学 / 特征匹配 / 霍夫 / 光流)
  • 画出动态数学」:让数学可视化触手可及的Manim入门课2025-11-0722.让你的动画“活”过来:Manim 节奏控制指南 (Rate Functions)2025-11-2323.M
  • 信息学奥赛一本通提高篇刷题路线图:从贪心到博弈论,如何高效攻克这1670道题?
  • VSCode Remote SSH 中 Codex 连接超时的排查与解决记录
  • 新手买翡翠避坑指南:7个可落地的“硬核”核对标准
  • One API:用一套接口调遍所有大模型
  • 死磕Spring Boot Validation校验
  • 一句话讲透向量数据库:它把“语义相似“变成了可计算的东西
  • 快速替换文本中的上下标