当前位置: 首页 > news >正文

AI的下一场战争:从算力到存力

子玥酱(掘金 / 知乎 / CSDN / 简书 同名)

大家好,我是子玥酱,一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚焦于业务型系统的工程化建设与长期维护。

我持续输出和沉淀前端领域的实战经验,日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案
在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。

技术方向:前端 / 跨端 / 小程序 / 移动端工程化
内容平台:
掘金、知乎、CSDN、简书
创作特点:
实战导向、源码拆解、少空谈多落地
文章状态:
长期稳定更新,大量原创输出

我的内容主要围绕前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读展开。文章不会停留在“API 怎么用”,而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍,希望能帮你在实际工作中少走弯路。

子玥酱 · 前端成长记录官 ✨
👋 如果你正在做前端,或准备长期走前端这条路
📚 关注我,第一时间获取前端行业趋势与实践总结
🎁 可领取11 类前端进阶学习资源(工程化 / 框架 / 跨端 / 面试 / 架构)
💡 一起把技术学“明白”,也用“到位”

持续写作,持续进阶。
愿我们都能在代码和生活里,走得更稳一点 🌱

文章目录

    • 引言
    • 一、为什么“算力崇拜”正在失效
    • 二、AI为什么越来越依赖“存力”
    • 三、Attention为什么会把存力问题彻底放大
    • 四、长上下文为什么会引爆存力危机
    • 五、Agent时代正在把存力推向核心位置
    • 六、多Agent系统会导致状态爆炸
    • 七、GPU为什么越来越像数据设备
    • 八、AI Runtime正在成为新的操作系统
    • 九、端侧AI会最先进入存力瓶颈
    • 十、AI产业正在进入State Scaling时代
    • 总结

引言

过去几年,AI 行业最核心的竞争关键词,一直都是:

算力(Compute)

从 GPT-3 到 GPT-4、从 Claude 到 Gemini、从 DeepSeek 到各种开源大模型。

整个行业几乎都围绕同一个目标展开竞争:

更多GPU 更大集群 更多FLOPS

甚至很多人默认认为:

AI 的未来,本质上就是一场无限扩张的算力竞赛。

于是过去几年里,我们看到:

参数规模越来越大 训练集群越来越大 GPU数量越来越多

行业最关心的问题始终是:

如何获得更多计算资源

因为在 Transformer 发展的早期阶段,最大的瓶颈确实来自:

Compute

但当大模型真正开始进入生产环境以后,一个新的问题开始出现。

越来越多团队发现:

GPU并没有算满

反而大量时间消耗在:

等待数据 等待内存 等待网络 等待状态同步

于是行业开始意识到:

现代 AI 最大的问题,已经不再只是“算不动”。

而是:

存不下 搬不动 同步不了

也就是说:

AI 正在从“算力时代”,进入“存力时代”。

这里的存力(Memory Power),并不仅仅意味着:

内存容量

而是:

Memory Bandwidth Cache State Runtime

未来 AI 的竞争,很可能不再是谁拥有最多 GPU。而是谁能够管理最庞大的状态系统。

一、为什么“算力崇拜”正在失效

过去几年有一个非常流行的观点:

算力就是 AI 的生产力。

这句话在过去是成立的,因为:

模型能力 ≈ 计算能力

模型越大,算力越强、效果越好。例如:

GPT-2 ↓ GPT-3 ↓ GPT-4

背后本质上都是:

Compute Scaling

但问题是:GPU 并不是无限快;更重要的是:GPU 不是孤立存在的。

它需要:

CPU供给数据 内存供给状态 网络供给同步

例如:

forbatchindataloader:output=model(batch)

很多人以为时间花在:

model(batch)

实际上在大型系统里:

DataLoader

往往才是真正的性能瓶颈,因为:

读取数据 传输数据 同步数据

开始占据越来越高的比例,于是现代 AI 系统越来越像:

GPU等待CPU CPU等待IO IO等待网络

形成一条长长的数据流水线。真正限制系统性能的,已经不再只是:

Compute Throughput

而是:

Data Throughput

二、AI为什么越来越依赖“存力”

传统软件和 AI 软件有一个本质区别。传统系统大多数属于:

请求 ↓ 处理 ↓ 结束

例如:

@app.route("/login")deflogin():return"success"

请求结束、状态释放、系统回到初始状态。但 AI 系统完全不同,现代 AI 需要长期维护:

上下文 记忆 推理历史 任务状态 工具调用记录

例如一个简单 Agent:

classAgent:def__init__(self):self.memory=[]defchat(self,msg):self.memory.append(msg)returnself.memory

随着时间推移:

Memory

会持续增长,现实系统里还会包含:

Vector Memory Task State Tool History Runtime Cache

于是系统真正复杂的问题变成:

状态怎么存? 状态怎么查? 状态怎么恢复?

此时:

计算

反而变成相对简单的问题,越来越多团队开始意识到:

AI 不再只是计算系统,而是状态系统。

三、Attention为什么会把存力问题彻底放大

Transformer 的成功来自:

Attention

Attention 的本质是:

不断读取历史状态

为了避免重复计算,现代模型会维护:

KV Cache

例如:

seq_len=32000hidden_size=4096layers=80bytes_per_value=2kv_cache_size=(seq_len*hidden_size*2*layers*bytes_per_value)print(kv_cache_size/1024/1024/1024)

结果接近:

40GB+

也就是说:

一个用户

就可能占据几十 GB 的状态空间,于是:

GPU越来越快

但:

KV Cache越来越大

最终系统进入状态:

Memory Bound

所以:

FlashAttention PagedAttention SparseAttention

本质上都在解决同一个问题:

如何降低状态管理成本。

四、长上下文为什么会引爆存力危机

未来 AI 想真正实现:

长期记忆 复杂推理 自治任务

就必须拥有:

超长上下文

问题在于,每增加一个 Token。系统都会新增:

KV Cache Attention State Runtime State

例如:

context=1000000state_size=8*1024memory=(context*state_size)print(memory/1024/1024/1024)

结果达到数 GB,于是很多长上下文模型真正卡住的原因不是:

算不动

而是:

存不下

因此:

Memory Compression Sparse Attention State Pruning

开始成为热门方向。

五、Agent时代正在把存力推向核心位置

LLM 解决的是:

生成

Agent 解决的是:

执行

但执行意味着:

状态持续存在

例如:

classAgentState:def__init__(self):self.tasks=[]self.memory=[]self.logs=[]

随着运行时间增长:

任务增加 记忆增加 日志增加

系统压力会越来越大,于是 Agent Runtime 最大的问题变成:

如何管理状态

而不是:

如何调用模型

六、多Agent系统会导致状态爆炸

未来最热门的方向之一:

Multi-Agent

但多个 Agent 意味着:

更多上下文 更多记忆 更多状态

例如:

agent_count=1000memory_per_agent=100print(agent_count*memory_per_agent)

结果:

100000 MB

即:

100GB+

而且还没计算:

同步 通信 共享记忆

因此:

Multi-Agent 的核心挑战其实是状态管理。

七、GPU为什么越来越像数据设备

过去 GPU 竞争的是:

TFLOPS

未来竞争的是:

HBM Bandwidth NVLink

因为:

数据搬运

正在成为系统最大成本,未来 GPU 架构会越来越偏向:

Memory-Centric

而非:

Compute-Centric

八、AI Runtime正在成为新的操作系统

未来 Runtime 需要管理:

任务 状态 缓存 Agent 资源

例如:

classRuntime:defschedule(self):passdefrecover(self):passdefallocate(self):pass

越来越像:

Operating System

区别只是,传统 OS 管理:

CPU Memory Process

AI Runtime 管理:

Model Context Agent State

九、端侧AI会最先进入存力瓶颈

云端还能扩 GPU,但资源有限,如:

手机 机器人 AR眼镜 车机

未来最大的限制往往不是:

CPU不够

而是:

Memory不够

因此:

INT4 KV Compression Incremental Inference

会越来越重要。

十、AI产业正在进入State Scaling时代

AI 的发展路径正在变化:

第一阶段:

Compute Scaling

第二阶段:

Model Scaling

第三阶段:

State Scaling

未来决定系统上限的,越来越不是:

参数规模

而是:

状态规模

总结

过去十年,AI 行业追逐的是:

FLOPS

大家认为:

算力决定未来

但随着:

长上下文 Agent 持续推理 多智能体

不断出现,行业正在经历一次新的范式转移,未来真正决定 AI 上限的资源可能不再是:

Compute

而是:

Memory Bandwidth Runtime State

因为现代 AI 已经越来越不像:

一次性的计算程序

而越来越像:

持续运行的智能系统

当 AI 开始拥有:

长期记忆 复杂协作 自治执行

真正昂贵的事情就不再是:

计算一次答案

而是:

维持智能持续存在

所以 AI 的下一场战争,很可能不是:

谁拥有更多GPU

而是:

谁能够更高效地存储状态、管理状态、调度状态,并支撑一个长期运行的智能世界。

从这个角度看,AI 正在从:

Compute Scaling

走向:

State Scaling

而这,或许才是未来十年 AI 基础设施最重要的一场革命。

http://www.cnnetsun.cn/news/2799912.html

相关文章:

  • 保姆级教程:用QGIS 3.28切好瓦片,再用CesiumJS 1.107一步调用成功
  • 别再手动试错了!用Minitab做全因子DOE,5步搞定工艺参数优化(附实战数据)
  • XHS-Downloader小红书作品下载终极指南:一键获取图文视频的完整解决方案
  • 告别野路子!STM32F4标准库V1.4.0工程搭建保姆级教程(Keil MDK环境)
  • 别再死磕公式了!用Python实战模拟TDOA定位:从Chan‘s Method到误差分析
  • 3步彻底解决Mac滚动方向混乱:Scroll Reverser终极配置指南
  • NMEA0183协议避坑指南:GPS、北斗模块数据解析中常见的5个错误
  • 运营效率重构:从“人力密集”到“人机协同高效运转”
  • Ultimate ASI Loader终极指南:3分钟学会游戏MOD加载技巧
  • 从用户视角看模态:Qt::WindowModal和ApplicationModal如何影响你的软件体验设计
  • 3分钟极速上手:全能网盘直链解析工具实战指南
  • Git实战:遇到‘本地领先远程N个提交’时,你的完整决策树与操作指南
  • 避开ANSYS SOLID65钢筋定义的坑:从实常数R/RMORE到材料TB,完整配置流程详解
  • 微调后的模型把“拒绝回答”学成了“我不知道”,合规红线直接踩穿
  • TypeScript 从零基础到精通(五):高级类型与泛型
  • 修改带mermaid的html文件生成bug:国产模型束手
  • 别只盯着热点函数了!用Intel VTune的‘异常探测’和‘内存消耗’分析揪出隐藏的性能鬼影
  • RAG系统性能优化与视觉分析方法实践
  • SAP BASIS入门实操:手把手教你配置STMS传输请求(从清空到测试全流程)
  • 为什么你的专栏引流失效?CSDN后台最新V2.3.8算法升级后,必须重配的6个AI链接关键字段
  • 云计算从入门到云原生:一篇文章吃透虚拟化、容器化、IaC与编排
  • 告别网络卡顿:手把手教你为RoCEv2配置DC-QCN拥塞控制(附mlnx_qcn命令详解)
  • 技术博客冷启动秘籍:巧用emoji提升CSDN文章打开率与互动数据
  • 独家拆解CSDN AI引流系统架构:仅限认证技术博主开放的「专栏级LinkID」动态绑定机制(内测资格倒计时72小时)
  • 从收音机到5G滤波器:品质因数Q如何影响你的手机信号和网速?
  • 【紧急预警】CSDN AI营销导流规则即将动态收紧!现在不掌握这4个合规导流杠杆,下月起私信触达率或腰斩
  • Spring AI Alibaba向量存储:5种企业级架构方案深度对比
  • 行政区划 ZIP 导入(importZip)
  • BilibiliDown终极指南:三分钟掌握B站视频下载神器
  • 8类果树病害检测数据集(炭疽病/白粉病/根腐病等)| 6000张YOLO智慧农业病虫害监测数据集 适用于果园智能监测、病害识别与目标检测研究