当前位置：首页 > news >正文

AI的下一场战争：从算力到存力

news 2026/6/7 1:59:17

子玥酱（掘金 / 知乎 / CSDN / 简书同名）

大家好，我是子玥酱，一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂，目前在某国企负责前端软件研发相关工作，主要聚焦于业务型系统的工程化建设与长期维护。

我持续输出和沉淀前端领域的实战经验，日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案，
在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。

技术方向：前端 / 跨端 / 小程序 / 移动端工程化
内容平台：掘金、知乎、CSDN、简书
创作特点：实战导向、源码拆解、少空谈多落地
文章状态：长期稳定更新，大量原创输出

我的内容主要围绕前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读展开。文章不会停留在“API 怎么用”，而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍，希望能帮你在实际工作中少走弯路。

子玥酱 · 前端成长记录官 ✨
👋 如果你正在做前端，或准备长期走前端这条路
📚 关注我，第一时间获取前端行业趋势与实践总结
🎁 可领取11 类前端进阶学习资源（工程化 / 框架 / 跨端 / 面试 / 架构）
💡 一起把技术学“明白”，也用“到位”

持续写作，持续进阶。
愿我们都能在代码和生活里，走得更稳一点 🌱

文章目录

- 引言
- 一、为什么“算力崇拜”正在失效
- 二、AI为什么越来越依赖“存力”
- 三、Attention为什么会把存力问题彻底放大
- 四、长上下文为什么会引爆存力危机
- 五、Agent时代正在把存力推向核心位置
- 六、多Agent系统会导致状态爆炸
- 七、GPU为什么越来越像数据设备
- 八、AI Runtime正在成为新的操作系统
- 九、端侧AI会最先进入存力瓶颈
- 十、AI产业正在进入State Scaling时代
- 总结

引言

过去几年，AI 行业最核心的竞争关键词，一直都是：

算力（Compute）

从 GPT-3 到 GPT-4、从 Claude 到 Gemini、从 DeepSeek 到各种开源大模型。

整个行业几乎都围绕同一个目标展开竞争：

更多GPU 更大集群 更多FLOPS

甚至很多人默认认为：

AI 的未来，本质上就是一场无限扩张的算力竞赛。

于是过去几年里，我们看到：

参数规模越来越大 训练集群越来越大 GPU数量越来越多

行业最关心的问题始终是：

如何获得更多计算资源

因为在 Transformer 发展的早期阶段，最大的瓶颈确实来自：

Compute

但当大模型真正开始进入生产环境以后，一个新的问题开始出现。

越来越多团队发现：

GPU并没有算满

反而大量时间消耗在：

等待数据 等待内存 等待网络 等待状态同步

于是行业开始意识到：

现代 AI 最大的问题，已经不再只是“算不动”。

而是：

存不下 搬不动 同步不了

也就是说：

AI 正在从“算力时代”，进入“存力时代”。

这里的存力（Memory Power），并不仅仅意味着：

内存容量

而是：

Memory Bandwidth Cache State Runtime

未来 AI 的竞争，很可能不再是谁拥有最多 GPU。而是谁能够管理最庞大的状态系统。

一、为什么“算力崇拜”正在失效

过去几年有一个非常流行的观点：

算力就是 AI 的生产力。

这句话在过去是成立的，因为：

模型能力 ≈ 计算能力

模型越大，算力越强、效果越好。例如：

GPT-2 ↓ GPT-3 ↓ GPT-4

背后本质上都是：

Compute Scaling

但问题是：GPU 并不是无限快；更重要的是：GPU 不是孤立存在的。

它需要：

CPU供给数据 内存供给状态 网络供给同步

例如：

forbatchindataloader:output=model(batch)

很多人以为时间花在：

model(batch)

实际上在大型系统里：

DataLoader

往往才是真正的性能瓶颈，因为：

读取数据 传输数据 同步数据

开始占据越来越高的比例，于是现代 AI 系统越来越像：

GPU等待CPU CPU等待IO IO等待网络

形成一条长长的数据流水线。真正限制系统性能的，已经不再只是：

Compute Throughput

而是：

Data Throughput

二、AI为什么越来越依赖“存力”

传统软件和 AI 软件有一个本质区别。传统系统大多数属于：

请求 ↓ 处理 ↓ 结束

例如：

@app.route("/login")deflogin():return"success"

请求结束、状态释放、系统回到初始状态。但 AI 系统完全不同，现代 AI 需要长期维护：

上下文 记忆 推理历史 任务状态 工具调用记录

例如一个简单 Agent：

classAgent:def__init__(self):self.memory=[]defchat(self,msg):self.memory.append(msg)returnself.memory

随着时间推移：

Memory

会持续增长，现实系统里还会包含：

Vector Memory Task State Tool History Runtime Cache

于是系统真正复杂的问题变成：

状态怎么存？ 状态怎么查？ 状态怎么恢复？

此时：

计算

反而变成相对简单的问题，越来越多团队开始意识到：

AI 不再只是计算系统，而是状态系统。

三、Attention为什么会把存力问题彻底放大

Transformer 的成功来自：

Attention

Attention 的本质是：

不断读取历史状态

为了避免重复计算，现代模型会维护：

KV Cache

例如：

seq_len=32000hidden_size=4096layers=80bytes_per_value=2kv_cache_size=(seq_len*hidden_size*2*layers*bytes_per_value)print(kv_cache_size/1024/1024/1024)

结果接近：

40GB+

也就是说：

一个用户

就可能占据几十 GB 的状态空间，于是：

GPU越来越快

但：

KV Cache越来越大

最终系统进入状态：

Memory Bound

所以：

FlashAttention PagedAttention SparseAttention

本质上都在解决同一个问题：

如何降低状态管理成本。

四、长上下文为什么会引爆存力危机

未来 AI 想真正实现：

长期记忆 复杂推理 自治任务

就必须拥有：

超长上下文

问题在于，每增加一个 Token。系统都会新增：

KV Cache Attention State Runtime State

例如：

context=1000000state_size=8*1024memory=(context*state_size)print(memory/1024/1024/1024)

结果达到数 GB，于是很多长上下文模型真正卡住的原因不是：

算不动

而是：

存不下

因此：

Memory Compression Sparse Attention State Pruning

开始成为热门方向。

五、Agent时代正在把存力推向核心位置

LLM 解决的是：

生成

Agent 解决的是：

执行

但执行意味着：

状态持续存在

例如：

classAgentState:def__init__(self):self.tasks=[]self.memory=[]self.logs=[]

随着运行时间增长：

任务增加 记忆增加 日志增加

系统压力会越来越大，于是 Agent Runtime 最大的问题变成：

如何管理状态

而不是：

如何调用模型

六、多Agent系统会导致状态爆炸

未来最热门的方向之一：

Multi-Agent

但多个 Agent 意味着：

更多上下文 更多记忆 更多状态

例如：

agent_count=1000memory_per_agent=100print(agent_count*memory_per_agent)

结果：

100000 MB

即：

100GB+

而且还没计算：

同步 通信 共享记忆

因此：

Multi-Agent 的核心挑战其实是状态管理。

七、GPU为什么越来越像数据设备

过去 GPU 竞争的是：

TFLOPS

未来竞争的是：

HBM Bandwidth NVLink

因为：

数据搬运

正在成为系统最大成本，未来 GPU 架构会越来越偏向：

Memory-Centric

而非：

Compute-Centric

八、AI Runtime正在成为新的操作系统

未来 Runtime 需要管理：

任务 状态 缓存 Agent 资源

例如：

classRuntime:defschedule(self):passdefrecover(self):passdefallocate(self):pass

越来越像：

Operating System

区别只是，传统 OS 管理：

CPU Memory Process

AI Runtime 管理：

Model Context Agent State

九、端侧AI会最先进入存力瓶颈

云端还能扩 GPU，但资源有限，如：

手机 机器人 AR眼镜 车机

未来最大的限制往往不是：

CPU不够

而是：

Memory不够

因此：

INT4 KV Compression Incremental Inference

会越来越重要。

十、AI产业正在进入State Scaling时代

AI 的发展路径正在变化：

第一阶段：

Compute Scaling

第二阶段：

Model Scaling

第三阶段：

State Scaling

未来决定系统上限的，越来越不是：

参数规模

而是：

状态规模

总结

过去十年，AI 行业追逐的是：

FLOPS

大家认为：

算力决定未来

但随着：

长上下文 Agent 持续推理 多智能体

不断出现，行业正在经历一次新的范式转移，未来真正决定 AI 上限的资源可能不再是：

Compute

而是：

Memory Bandwidth Runtime State

因为现代 AI 已经越来越不像：

一次性的计算程序

而越来越像：

持续运行的智能系统

当 AI 开始拥有：

长期记忆 复杂协作 自治执行

真正昂贵的事情就不再是：

计算一次答案

而是：

维持智能持续存在

所以 AI 的下一场战争，很可能不是：

谁拥有更多GPU

而是：

谁能够更高效地存储状态、管理状态、调度状态，并支撑一个长期运行的智能世界。

从这个角度看，AI 正在从：

Compute Scaling

走向：

State Scaling

而这，或许才是未来十年 AI 基础设施最重要的一场革命。

查看全文

http://www.cnnetsun.cn/news/2799912.html

保姆级教程：用QGIS 3.28切好瓦片，再用CesiumJS 1.107一步调用成功

别再手动试错了！用Minitab做全因子DOE，5步搞定工艺参数优化（附实战数据）

XHS-Downloader小红书作品下载终极指南：一键获取图文视频的完整解决方案

告别野路子！STM32F4标准库V1.4.0工程搭建保姆级教程（Keil MDK环境）

别再死磕公式了！用Python实战模拟TDOA定位：从Chan‘s Method到误差分析

3步彻底解决Mac滚动方向混乱：Scroll Reverser终极配置指南

NMEA0183协议避坑指南：GPS、北斗模块数据解析中常见的5个错误

运营效率重构：从“人力密集”到“人机协同高效运转”

Ultimate ASI Loader终极指南：3分钟学会游戏MOD加载技巧

从用户视角看模态：Qt::WindowModal和ApplicationModal如何影响你的软件体验设计

3分钟极速上手：全能网盘直链解析工具实战指南

Git实战：遇到‘本地领先远程N个提交’时，你的完整决策树与操作指南

避开ANSYS SOLID65钢筋定义的坑：从实常数R/RMORE到材料TB，完整配置流程详解

微调后的模型把“拒绝回答”学成了“我不知道”，合规红线直接踩穿

TypeScript 从零基础到精通（五）：高级类型与泛型

修改带mermaid的html文件生成bug:国产模型束手

别只盯着热点函数了！用Intel VTune的‘异常探测’和‘内存消耗’分析揪出隐藏的性能鬼影

RAG系统性能优化与视觉分析方法实践

SAP BASIS入门实操：手把手教你配置STMS传输请求（从清空到测试全流程）

云计算从入门到云原生：一篇文章吃透虚拟化、容器化、IaC与编排

告别网络卡顿：手把手教你为RoCEv2配置DC-QCN拥塞控制（附mlnx_qcn命令详解）

技术博客冷启动秘籍：巧用emoji提升CSDN文章打开率与互动数据

独家拆解CSDN AI引流系统架构：仅限认证技术博主开放的「专栏级LinkID」动态绑定机制（内测资格倒计时72小时）

从收音机到5G滤波器：品质因数Q如何影响你的手机信号和网速？

【紧急预警】CSDN AI营销导流规则即将动态收紧！现在不掌握这4个合规导流杠杆，下月起私信触达率或腰斩

Spring AI Alibaba向量存储：5种企业级架构方案深度对比

行政区划 ZIP 导入（importZip）

BilibiliDown终极指南：三分钟掌握B站视频下载神器

8类果树病害检测数据集（炭疽病/白粉病/根腐病等）| 6000张YOLO智慧农业病虫害监测数据集适用于果园智能监测、病害识别与目标检测研究