当前位置：首页 > news >正文

跳出算力执念：内存墙如何成为大模型的真正挑战？

news 2026/5/30 6:42:16

网罗开发（小红书、快手、视频号同名）

大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。

图书作者：《ESP32-C3 物联网工程开发实战》
图书作者：《SwiftUI 入门，进阶与实战》
超级个体：COC上海社区主理人
特约讲师：大学讲师，谷歌亚马逊分享嘉宾
科技博主：华为HDE/HDG

我的博客内容涵盖广泛，主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告，同时也会提供产品优缺点分析、横向对比，并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。

展菲：您的前沿技术领航员
👋 大家好，我是展菲！
📱 全网搜索“展菲”，即可纵览我在各大平台的知识足迹。
每周定时推送干货满满的技术长文，从新兴框架的剖析到运维实战的复盘，助您技术进阶之路畅通无阻。

文章目录

- 引言
- 一、什么是“内存墙”？
- 二、为什么大模型会把“内存墙”彻底放大
- 三、为什么长上下文会彻底击穿内存系统
- 四、为什么“显存”开始比“算力”更重要
- - 一个超大模型
- 五、为什么多 Agent 系统会进一步放大“内存问题”
- 六、为什么“数据流动”会比“计算”更重要
- 七、为什么 Runtime 会越来越重要
- 八、为什么 AI 芯片会越来越“内存中心化”
- 九、为什么端侧 AI 会更早撞上“内存墙”
- 十、为什么“系统工程”会重新成为 AI 核心竞争力
- 十一、未来 AI 的竞争，会从“模型大小”变成“系统效率”
- 十二、AI 正在从“计算问题”变成“系统问题”
- - 第一阶段
  - 第二阶段
  - 第三阶段
- 总结

引言

过去几年，AI 行业几乎形成了一种默认共识：

算力 = AI 发展的核心

于是整个行业都在围绕：

GPU FLOPS 算力集群

疯狂竞争，很多人甚至会天然认为：

只要 GPU 足够强，大模型问题最终都能解决。

但现实世界正在出现一个越来越明显的反常现象：

GPU 越来越强 模型却越来越“跑不动”

为什么？因为真正限制现代 AI 系统的，开始不再是：

Compute（计算）

而是：

Memory（内存）

更准确地说：

AI 正在撞上一堵新的“内存墙（Memory Wall）”。

这堵墙，正在成为：

长上下文 多 Agent 持续推理 自治系统

真正的核心瓶颈。而这意味着：

AI 行业正在从“算力时代”，进入“内存时代”。

一、什么是“内存墙”？

这是计算机系统里一个非常经典的问题，简单来说：

CPU / GPU 的计算速度 增长越来越快

但：

内存访问速度 增长远远跟不上

于是系统会进入一种典型状态：

计算单元在等待数据

而不是：

真正持续计算

这就叫：

Memory Wall

也就是说：

不是“算不动”，而是“数据送不过来”。

二、为什么大模型会把“内存墙”彻底放大

过去很多传统程序：

数据规模有限

所以：

内存问题不明显

但 Transformer 出现后，一切开始变化。因为大模型天然需要：

海量参数 海量上下文 海量状态

尤其是：

Attention

机制，本质上特别依赖：

频繁的数据读取

于是问题出现了，GPU 很强但：

数据来不及送达

Tensor Core 很快但：

KV Cache 读取太慢

多 GPU 集群但：

节点通信成为瓶颈

于是：

现代 AI 系统越来越像“数据搬运系统”，而不是“纯计算系统”。

三、为什么长上下文会彻底击穿内存系统

长上下文是现在 AI 行业最明显的发展方向之一。因为未来 AI 想真正实现：

长期记忆 复杂推理 自治任务

就必须拥有：

超长上下文

但问题是：

上下文越长，真正爆炸的往往不是算力，而是内存。

因为：

Attention

本质上需要：

读取全部历史 Token

于是：

KV Cache

会指数级膨胀。很多时候系统真正卡住的，不是：

算 Attention 太慢

而是：

读 Cache 太慢

所以现在越来越多优化方向开始围绕：

PagedAttention KV Cache Compression Sparse Attention

因为：

未来 AI 最大的问题，可能不是“模型不会推理”，而是“系统记不住”。

四、为什么“显存”开始比“算力”更重要

过去大家买 GPU，最关注的是：

TFLOPS

但现在越来越多人开始关注：

HBM 容量 HBM 带宽 显存大小

因为现代 AI 系统真正的状态越来越像：

GPU 在等待显存

而不是：

GPU 在疯狂计算

举个典型例子：

一个超大模型

即使：

计算能力足够

但如果：

显存装不下

整个系统就必须：

频繁 Offload 频繁通信 频繁同步

结果：

延迟瞬间爆炸

于是行业开始发现：

未来 AI 的核心资源，可能不是 FLOPS，而是 Memory Capacity。

五、为什么多 Agent 系统会进一步放大“内存问题”

这一点特别关键，未来 AI 不再只是：

单轮聊天

而会越来越变成：

多 Agent 协作系统

问题来了，每个 Agent 都需要：

上下文 状态 Memory 任务历史

于是：

状态数量 开始指数级增长

这意味着未来 AI 系统真正复杂的地方，会越来越偏向：

状态管理 上下文调度 内存管理

而不是：

单次推理

这其实和 OpenClaw 很像。因为 OpenClaw 的核心，本质上就是：

持续状态系统

而不是：

一次性生成系统

六、为什么“数据流动”会比“计算”更重要

这是未来 AI 特别大的变化，过去：

AI 拼谁算得快

未来：

AI 拼谁“流得快”

什么意思？现代 AI 系统真正复杂的问题开始变成：

数据怎么搬 状态怎么同步 上下文怎么缓存

因为：

AI 的真正瓶颈，正在从“Compute-bound”走向“Memory-bound”。

七、为什么 Runtime 会越来越重要

很多人现在还把 AI 理解成：

模型

但未来 AI 系统会越来越像：

操作系统

因为真正复杂的问题已经变成：

任务调度 内存调度 状态调度 带宽调度

于是：

AI Runtime

开始变成未来真正核心的基础设施。

这也是为什么 OpenClaw 这种系统越来越重要，因为它真正关注的是：

系统如何持续运行

而不是：

一次生成结果

八、为什么 AI 芯片会越来越“内存中心化”

过去 GPU 的设计逻辑是：

Compute First

未来 AI 芯片会越来越变成：

Memory First

因为：

计算单元已经足够强，但数据供应跟不上。

于是未来特别关键的东西会变成：

HBM Cache Chiplet Interconnect Memory Pooling

而不是单纯：

FLOPS 数字

也就是说：

AI 硬件正在从“计算架构”，转向“数据流架构”。

九、为什么端侧 AI 会更早撞上“内存墙”

云端至少还有：

超大 GPU 集群

但端侧设备：

手机 机器人 IoT 车机

天然资源有限，于是端侧 AI 最大的问题往往不是：

CPU 太弱

而是：

内存根本不够

因为：

长上下文 多任务 持续状态

都会迅速耗尽资源。所以未来端侧 AI 的核心方向，一定是：

Memory-efficient AI

包括：

量化 状态压缩 KV Cache 优化 增量推理

因为：

边缘 AI，本质上是在和“内存墙”战斗。

十、为什么“系统工程”会重新成为 AI 核心竞争力

过去几年：

模型能力

几乎统治整个行业。但未来真正关键的问题，会越来越偏向：

系统能力

因为现代 AI 真正复杂的问题已经变成：

状态 缓存 带宽 调度 通信

这些东西：

本质上都是系统工程问题

于是未来最重要的人，可能不只是：

模型研究员

而是：

Runtime Engineer 系统架构师 分布式工程师

十一、未来 AI 的竞争，会从“模型大小”变成“系统效率”

过去：

谁参数多 谁更强

未来：

谁更高效 谁更强

因为：

真正能长期运行的大模型，不一定是最大的模型，而是最“流畅”的模型。

于是未来行业会越来越关注：

吞吐 延迟 缓存命中率 带宽利用率

而不是：

参数数量

十二、AI 正在从“计算问题”变成“系统问题”

重新看整个 AI 行业，会发现一个特别明显的变化：

第一阶段

模型不够强

第二阶段

Agent 不够智能

第三阶段

系统跑不动

而未来真正决定 AI 上限的，很可能已经不是：

模型推理能力

而是：

系统能否高效管理 Memory 与 Data Flow

总结

核心问题是：

未来 AI 真正稀缺的，到底是“计算能力”，还是“数据流动能力”？

过去几年：

行业疯狂追逐 FLOPS

但未来几年，真正限制 AI 的，很可能是：

Memory Bandwidth Runtime Scheduling

因为现代 AI 已经越来越不像：

一次性的计算任务

而更像：

持续运行的状态系统

当 AI 开始拥有：

长期记忆 多 Agent 协作 自治任务

它真正面对的，就不再只是：

算力问题

而是：

整个系统如何“记住世界”、并持续高效流动。

查看全文

http://www.cnnetsun.cn/news/2651121.html

电磁仿真与游戏物理中的‘高斯定理’：Unity和COMSOL里的通量计算实战

别再手动填参数了！一个工具函数搞定Cesium加载SuperMap WMTS/WMTS100服务

Merkle树原理与区块链存储优化实践

springboot security 权限控制---循环依赖问题

CodeGraph：让代码理解进入「索引时代」

告别简陋弹窗！用PySide6的QMessageBox给你的Python桌面应用加点‘人情味’

Spring Boot项目里用了@Async注解，为啥异步任务还是没跑起来？排查这3个坑

Unity 2021.3.16 + Rider：用Sunny Land素材包30分钟搞定2D角色移动与跳跃（含二段跳实现）

对话式AI训练数据实战：从NLU、ASR到数据采集与标注

IBuilder.cs 接口

别再说STM32F103跑不动GUI了！手把手教你用SPI屏+TouchGFX在256KB RAM的MCU上跑Demo

大家进来聊聊都用的哪家宽带

告别位操作烦恼：用PCA9535库函数优雅管理STM32的每个IO状态

【AI】【Agent】【Skills】对于Claude Code CLI的skills安装方法

Unity TMPro文本框伸缩踩坑实录：从GetPreferredValues不准到手动补正行距与边距

垄断场景加智能算法，揭秘高铁流量背后的营销爆破术

2026年精选AI论文网站指南（实测甄选版）

AI产品用户测试：从功能验证到心智模型校准的实践指南

如何通过编译规则强制AI服从：实现结构化与确定性输出的工程实践

π0.7：多模态上下文如何赋能机器人实现组合泛化与跨平台技能迁移

基于Apache Cassandra构建高并发实时特征库：数据模型设计与工程实践

避坑指南：蓝桥杯嵌入式PWM编程，为什么你的电机控制不精准？从定时器原理到动态调频调占空比

从TF-IDF到SBERT：机器学习文本查重原理与工程实践

从拨号上网到光纤入户：聊聊PPP协议那些年我们踩过的坑

告别卡顿和色偏！保姆级教程：用K-Lite一键搞定PotPlayer+LAV+MadVR+XySubFilter全家桶

通用数据工具开发实战：从零构建数据标注与处理一体化平台

PHP反序列化‘快车道’：深入fast-destruct与GC回收的三种实战利用姿势

AI智能体安全设计：构建高可靠紧急中断机制与失效安全架构

基于Arduino与PPG传感器的心率监测系统：从原理到实现

Keil MDK授权卡死问题分析与解决方案

文章目录

引言

一、什么是“内存墙”？

二、为什么大模型会把“内存墙”彻底放大

三、为什么长上下文会彻底击穿内存系统

四、为什么“显存”开始比“算力”更重要

一个超大模型

五、为什么多 Agent 系统会进一步放大“内存问题”

六、为什么“数据流动”会比“计算”更重要

七、为什么 Runtime 会越来越重要

八、为什么 AI 芯片会越来越“内存中心化”

九、为什么端侧 AI 会更早撞上“内存墙”

十、为什么“系统工程”会重新成为 AI 核心竞争力

十一、未来 AI 的竞争，会从“模型大小”变成“系统效率”

十二、AI 正在从“计算问题”变成“系统问题”

第一阶段

第二阶段

第三阶段

总结

相关文章：