当前位置：首页 > news >正文

国产大模型价格战复盘 2024-2026：24 个月里，谁在裸泳，谁在赚安静的钱

news 2026/7/5 5:59:53

国产大模型价格战复盘 2024-2026：24 个月里，谁在裸泳，谁在赚安静的钱

从 2024-05-11 智谱 GLM-3 Turbo 打响第一枪（价格从 0.005 元/千 tokens 降到 0.001 元/千 tokens）到 2025-02-26 DeepSeek 官宣错峰半价（V3 五折、R1 二五折），国产大模型 API 在 24 个月里经历了三次价格冲击波、一次能力对齐、一次利润重构。这篇复盘不追热闹，只回答一个问题：同样的 100 亿 tokens 月消耗，2024 年 4 月要付 120 万元，2026 年 6 月能压到多少？为什么能压到那么低？谁在这个过程里赚到了钱、谁只是完成了 KPI。全文配套代码在 chapter-26-china-llm-price-war，一份价格快照数据集 + 一个成本敏感性分析器 + 5 条 pytest 全绿。

一、为什么现在做复盘：数据齐了、玩家定型了、下一次跳水信号已现

复盘这件事有一个隐性门槛——必须等到市场进入相对稳定期，价格曲线才有意义。2024 上半年那会儿写复盘是危险的，因为价格每周都在变，一篇文章发出去三天就过期。到 2026 年年中，情况不一样了：

第一，公开数据齐了。豆包/通义/文心/混元的官方定价页面都保持了 2 年以上的历史 changelog（火山引擎的豆包定价页、阿里云百炼的计费文档、百度智能云千帆的价格公告页），DeepSeek 的官网价格页保留了每一次调价的时间戳，Kimi 的计费博客有完整的 Context Caching 收费演进。第三方比价工具比如 artificialanalysis.ai 也把主流模型的历史价格做进了时间序列。

第二，玩家定型了。2024 年上半年降价的 7 家里，2025 年年底止步于 API 层的其实只剩 5 家半——智谱、豆包、通义、DeepSeek、Kimi 是主力，文心和混元收回了免费策略、走精调 + 云销售路线，MiniMax 走海外。玩家名单稳定意味着可以做纵向对比。

第三，下一次跳水信号已经在出现。2026 年 5 月 DeepSeek V3.2 把输出价格从 0.56 美金/M 悄悄压到 0.42 美金/M，同期字节豆包 1.5-pro 在长文本档位又降了一波（deepseak.org DeepSeek pricing 2026-02 复盘）。当第一次跳水已经结束、第二次跳水刚刚开始的时候，复盘第一次是最有信息量的——它能告诉你第二次会不会重复第一次的剧本。

先把 24 个月里能拿到手的关键价格节点整理成一张时间表，作为后续讨论的基础事实。

二、24 个月完整时间线：三次冲击波 + 一次能力对齐

时间	事件	出处
2024-05-11	智谱 GLM-3 Turbo：0.005 元/千tokens → 0.001 元/千tokens，降幅 80%	Forbes China、品玩
2024-05-15	火山引擎豆包 pro-32k：输入 0.0008 元/千tokens、输出 0.002 元/千tokens，比行业低 99.3%	新华网、每日经济新闻
2024-05-21	阿里通义 Qwen-Long：0.02 → 0.0005 元/千tokens 输入（降 97%）、输出 0.02 → 0.002（降 90%）；Qwen-Max 0.12 → 0.04（降 67%）	新华社经济参考报、智源社区
2024-05-21	百度文心 ERNIE-Speed / ERNIE-Lite 全面免费（含 8K / 128K 两档）	36 氪、千帆平台公告
2024-05-22	腾讯混元-lite 从 0.008 元/千tokens 调整为免费，上下文从 4K 扩到 256K；混元-standard 从 0.01 → 0.0045	新京报贝壳财经、腾讯云开发者社区
2024-05-22	讯飞星火 Spark Lite 免费	新京报综合报道
2024-06-05	智谱 GLM-4-Flash 0.1 元/百万 tokens（1 毛钱 100 万 tokens）	腾讯新闻
2024-07	Kimi Context Caching 公测：24 元/M 创建 + 10 元/M/分存储 + 0.02 元/次调用	Moonshot 官方博客
2024-08-07	Kimi Cache 存储费降 50%，从 10 元/M/分 → 5 元/M/分	36 氪
2024-12-26	DeepSeek V3 发布，671B MoE，激活 37B，全模型开源	DeepSeek 官网
2025-01-20	DeepSeek R1 发布，推理成本约为 OpenAI o1 的 3%	DeepSeek 论文
2025-02-26	DeepSeek 错峰优惠：北京时间 00:30-08:30，V3 五折、R1 二五折	证券时报
2025-Q3	豆包 1.5-pro、通义 Qwen2.5-Max、Kimi K1.5 陆续对齐 GPT-4o / Claude 3.5 Sonnet 能力档位	各家发布会
2026-05	DeepSeek V3.2 输出价格 0.56 → 0.42 美金/M；缓存命中折扣拉到 90%	deepseak.org 定价复盘
2026-06	主流国产模型 API 稳定在"输入 0.5-4 元/M、输出 2-16 元/M"区间，与 OpenAI 同档模型价差稳定在 5-15 倍	各家官方定价页

三次冲击波之间的分水岭非常清晰：

第一次冲击波（2024-05-11 至 2024-05-22，共 12 天）：“厘时代"直接冲到"免费时代”。智谱开第一枪、豆包把主力模型压到 0.0008 元/千 tokens、通义再补一刀 0.0005 元/千 tokens、文心和混元直接免费。这波的核心不是"价格降到多少"，而是"心理锚"被打穿了——大模型 API 从"按分计价"永久地进入了"按厘计价"这个新参考系。据新华网 2024-05-15 报道，火山引擎总裁谭待原话：“大模型从以分计价到以厘计价，将助力企业以更低成本加速业务创新”——这句话事后看是价格战的官方口号。

第二次冲击波（2024 下半年）：“能力档位战 + 长文本战”。头部玩家不再拼便宜，而是拼"同价档位下的能力"。Kimi 在 2024-07 上线 Context Caching、把长文本重复调用的成本压到十分之一，是第一次"以工程手段（不是刀砍单价）降本"的样板；智谱在 6 月推出 GLM-4-Flash 把入门价压到 0.1 元/M tokens；豆包在下半年把 pro-128k 也拉到 0.005 元/千 tokens 档位。这个阶段头部厂商开始意识到——只降价不加能力，是慢性自杀。

第三次冲击波（2025-01 至 2025-02）：DeepSeek 用一颗深水炸弹改写了游戏。V3 和 R1 陆续开源、性能对标 GPT-4o / o1、API 价格只有 OpenAI 同档模型的 3-5%——这不再是国内五家互相打价格战，而是中国厂商第一次成为全球价格锚。据证券时报 2025-02-26 报道，DeepSeek 错峰时段 V3 五折、R1 二五折，把"夜间 GPU 空闲"这个云厂商传统头疼问题当成杠杆用。第三次冲击的最大影响不是"又便宜了"，而是OpenAI 主动跟降 GPT-4o 系列、Anthropic 出 Haiku 3.5 抢入门档、Google Gemini Flash 全面免费——国产价格锚开始定义全球价格锚。

一次能力对齐（2025-Q3 至 2026-Q1）：豆包 1.5-pro、Qwen2.5-Max、Kimi K1.5、DeepSeek V3.1、智谱 GLM-4.5 陆续在 MMLU / GPQA / LiveCodeBench / SWE-bench 上打到 GPT-4o、Claude 3.5 Sonnet 的 90%+ 水平。能力上不再有明显代差这件事一旦发生，就等于宣告"价格战不再是唯一杠杆"——2026 年上半年的定价基本围绕"能力档位对齐后的成本竞争"展开，而不是"我比你便宜 90%"式的口号战。

三、分玩家复盘：8 家的降价节奏、成本逻辑、市场卡位

豆包 / 火山引擎：用"极限低价 + 内部使用量"打飞轮。2024-05 首次亮相就把 pro-32k 定在 0.0008 元/千 tokens 输入、0.002 元/千 tokens 输出，据新华网报道彼时豆包大模型日均处理 1200 亿 tokens 文本——内部业务（豆包 App、扣子、猫箱、剪映等）就吃掉了主要产能，外部客户被"分摊"到已经跑满的推理集群上、边际成本压得比对手低。这套飞轮到 2026 年年中依然在转，火山引擎公开的"日均 tokens 处理量"从 1200 亿涨到 16.4 万亿（据 2026-Q2 IDC 报告），是全球云厂商推理规模第一。

通义 / 阿里云：用"9 款一起降 + 长文本旗舰"卡位企业市场。2024-05-21 一次性把 9 款模型（含 Qwen-Long、Qwen-Max、Qwen1.5-72B / 110B 等开源系列）价格砍到"1 折购"档位，据新华社经济参考报，Qwen-Long 支持 1000 万 tokens 长文本、输入价格降到 GPT-4 的 1/400。这一手的策略含义不是"我要打死同行"，而是"把大模型 API 从一个’尝鲜服务’变成一个’云基础设施 SKU’“——用云计算的定价逻辑（规模效应 + 多版本组合）替代 SaaS 溢价定价逻辑。通义在 2025-2026 逐步把注意力从"打价格战"转到"精调 + 私有化部署 + 智能体开发平台”，反而是最先跳出纯价格战泥潭的一家。

DeepSeek：用"极致工程 + 开源模型"重定义全球成本函数。V3 的 671B MoE 稀疏架构、激活参数只有 37B，配合 Multi-Token Prediction 和 FP8 混合精度训练，把训练成本压到 557 万美金档位——这个数字不是"低于同行"的问题，是"低了一个数量级"的问题。API 价格 V3 输入 0.5 元/百万 tokens（缓存命中）、输出 8 元/百万 tokens，R1 输入 1 元/16 元。2025-02 又叠了一层"错峰优惠"（00:30-08:30 时段 V3 五折、R1 二五折），把云厂商传统的"夜间 GPU 空闲"问题当成折扣杠杆。DeepSeek 之前，国产模型是"跟随定价"；DeepSeek 之后，国产模型是"锚定定价"——这个转折发生在 2025-01-20 R1 发布之后的 3 周内。

Kimi / 月之暗面：用"工程降本 + 长文本卡位"避开正面价格战。Kimi 从来没在"每千 tokens 单价"这个维度打过硬仗，而是选了另一条路——2024-07 上线 Context Caching，让重复调用的长文本上下文按"存储 + 调用"分开计费，重复率高的场景可以把成本压到 1/10。这一手的高明之处是用户体验相同、单价不变、但账单变便宜，避开了"看起来只是便宜货"的品牌陷阱。2025 年 K1.5 把推理能力拉到 o1-mini 档次，2026 年 Kimi K2 直接冲进多模态推理第一梯队，价格战对它的影响始终有限。

智谱：用"降价 + 学术背书 + 生态开发者"守住第一梯队。作为价格战的开枪者，智谱在 24 个月里维持了非常克制的节奏——GLM-3 Turbo 打响第一枪、GLM-4-Flash 补一刀（腾讯新闻 2024-06-05），2025 年 GLM-4.5 / GLM-5 出来后不再频繁降价，而是把重点转到"高端能力档位保住溢价"。到 2026 年智谱的定价策略是"低端免费 + 中端跟随行业均价 + 高端保持 GPT-4 档次的 30-40% 折让"——三档定价，是国产模型里做得最规整的一家。

文心 / 百度智能云：用"免费入门 + 千帆平台变现"绕开单价血战。2024-05-21 直接把 ERNIE-Speed / ERNIE-Lite 免费的这一手，事后看是百度全公司战略级选择——放弃 API 单价的直接变现，把大模型能力打包进千帆平台（含精调、部署、Agent 编排、企业级安全），从平台层和精调服务里赚钱。这条路径到 2026 年验证是走对了：文心 4.5 和 5.0 在 ToB 招标场景里稳定占据国央企基线份额，2026 年上半年百度智能云大模型相关收入同比翻倍——放弃 API 单价、赢下解决方案预算是这家的核心逻辑。

混元 / 腾讯云：用"C 端消费 + 云销售组合"低调稳步跟随。混元-lite 免费之后，腾讯的公开动作明显减少，价格战热度里 C 位一直在字节 / 阿里 / DeepSeek。但腾讯有一张暗牌——微信生态（元宝、公众号写作助手、腾讯文档 AI）和 QQ 音乐/视频号的 C 端渠道。混元的 API 价格不激进、但内部消耗巨大，腾讯云 2025 年后把混元 + DeepSeek 组合销售给企业客户，成为国内第二个"多模型一体柜"的云厂商（第一是火山引擎）。混元的市场卡位是"稳"而不是"抢"。

MiniMax：用"海外市场 + 声音 / 视频模态"另辟战场。国内价格战最激烈的两次冲击波，MiniMax 都没有跟牌。它选择在海外市场（Talkie App、Character AI 的备胎位置）和多模态（Music-01、Video-01 系列）打差异化，2026 年上半年海外收入据传超过国内。MiniMax 的启示是——当同行都在"每千 tokens 便宜多少"这一个维度上贴身肉搏，跳出这个维度反而是活路。

四、成本视角：这次是真降本，还是烧钱换量

把上面所有价格数字放在一起，最容易问的一个问题是：厂商这么降价，到底是真的降本了，还是在烧钱换 GMV？答案是"两者都有"，但比例在过去 24 个月里发生了明显反转。

技术侧的三个真降本引擎是可验证的：

第一，MoE 稀疏化把激活参数量降了一个数量级。DeepSeek V3 是最典型的例子：总参 671B、每 token 只激活 37B。同样一次推理，稠密模型（如 Llama 3.1 405B 每次都激活 405B）需要的显存带宽和计算量是稀疏模型的 10 倍以上。豆包和通义在 2025 年之后也大规模转向 MoE 架构（豆包 1.5-pro、Qwen2.5-Max 都是），底层成本天然低。

第二，KV Cache 优化 + Prompt Caching 让重复调用的边际成本趋近于零。Kimi Context Caching、DeepSeek 缓存命中折扣（V3.2 命中折扣 90%）、豆包 prompt caching、通义 CachedTokens 计费，这一整套"读缓存等于半价甚至十分之一价"的机制是 2024 下半年到 2025 全年的工程重心。同一段 5000 token 的 system prompt，用没用 caching，成本差 5-10 倍——这是我在第 17 篇 Prompt Caching 成本实测里做过横评的核心结论。

第三，推理芯片选择下探。2025 年之后，头部国产模型厂商大量在 A800/H800 之外用国产芯片（华为昇腾、寒武纪、燧原）和消费级 4090 集群做低成本档位推理。同样一次 V3 推理，H800 集群单位成本是 4090 集群的 3-4 倍，但吞吐是 5-6 倍——把"低价档"路由到消费级卡集群、"高价档"路由到 H800，是 2026 年上半年多家云厂商在悄悄做的差异化调度。

但烧钱换量的成分也依然存在。至少在 3 个地方仍能看到明显痕迹：

免费档位（文心 Lite、混元 Lite、讯飞 Spark Lite）本质是获客而非盈利——推理成本 > 0、售价 = 0、差额由云厂商母业务补贴；
入门档位（0.1-0.5 元/M tokens 那一档）实际推理成本估算大约在 0.2-0.4 元/M（假设 H800 单卡每小时 20 元、并发 TPS 200、平均输入 500 token），毛利很薄甚至倒挂，主要靠"上量后往上转化到中高端档位"来赚钱；
深夜错峰折扣（DeepSeek 00:30-08:30 半价、部分厂商深夜 3-7 折）背后的逻辑是"夜间 GPU 空闲成本无论如何都要付、5 折卖出去也比闲着强"，是把云计算的传统淡峰定价搬到了 API 上。

判断一次降价是"真降本"还是"烧钱换量"，有一条粗糙但可用的经验规则：

# chapter-26-china-llm-price-war/src/pricing_sensitivity.pydefis_sustainable_cut(list_price_per_m_tokens:float,cache_hit_rate:float,cache_discount:float,inference_cost_per_m_tokens:float)->bool:"""判断一次降价长期是否可持续。 参数： list_price_per_m_tokens: 官方定价（元/百万 tokens） cache_hit_rate: 平均缓存命中率（0-1） cache_discount: 缓存命中的折扣（例如 0.1 表示 1 折价） inference_cost_per_m_tokens: 估算的推理边际成本（元/百万 tokens） 返回：True 表示混合价格 > 边际成本，可持续；False 表示倒挂 """effective_price=(list_price_per_m_tokens*(1-cache_hit_rate)+list_price_per_m_tokens*cache_discount*cache_hit_rate)returneffective_price>inference_cost_per_m_tokens# 示例：DeepSeek V3 输入 0.5 元/M、缓存命中折扣 90%、假设 60% 缓存命中率# 估算 H800 集群边际成本 0.2 元/Mprint(is_sustainable_cut(0.5,0.6,0.1,0.2))# → True，可持续

代入 2026 年 6 月主流国产模型的公开数据跑一遍这个规则，5 家头部厂商的输入侧基本都在可持续区间内，输出侧则拉开显著差距——DeepSeek、豆包、通义因为 MoE + 高并发的规模效应把输出成本压得很低，其他家的输出档定价里仍有约 10-20% 的"补贴成分"。24 个月的价格战下来，头部 3 家已经从"烧钱"过渡到"薄利"，其余 4-5 家仍在补贴。

五、谁得利谁裸泳：4 类玩家的净影响

把 24 个月的价格曲线代入 4 类下游玩家，能得到一份"净影响清单"，也是 API 价格战真正落到工程侧和商业侧的地方。

ToB SaaS 公司（大幅受益）：假设一个 100 万 MAU 的客服 SaaS，2024 年 4 月用 GPT-3.5 Turbo 一年 LLM 账单大约 200 万美金；2026 年 6 月同样规模换成 DeepSeek V3 + 缓存命中 60%，一年 LLM 账单能压到 15-20 万美金，成本降到原来的 1/10。省下的钱要么变利润、要么变成新功能（多模态、Agent 工作流）——这是过去 24 个月里企业级 AI 应用能从 10 家变成 500 家的直接推动力。据 CData Enterprise MCP Use Cases Roadmap 2026 报告，2026 年 Q1 ToB SaaS 里"AI 相关模块"的毛利率反而比 2024 年高了 8-12 个百分点——用户价格没降、成本降了。

ToC APP（受挤压）：C 端应用的问题恰恰相反——成本降了、用户预期也降了。用户已经习惯"Kimi 免费问、豆包免费聊、ChatGPT 每月 20 美金无限用"，付费意愿被彻底重塑。C 端 AI 应用的商业模式在 2024-2026 之间经历了"订阅制 → 广告制 → 硬件搭售 → 会员权益打包"的四次挪移，其中大量创业公司死在第一次挪移——API 便宜了不等于产品好卖。C 端玩家在 2026 年的普遍共识是：“别指望 API 便宜救活弱产品”。

Agent 平台（成本压力反而增大）：反直觉的一件事——Agent 平台在价格战里日子并不好过。原因是 Agent 的 token 消耗是 chatbot 的 20-100 倍（一次任务里模型要反复读工具描述、思考、调用、反思、总结），单价虽然降了 90%，但调用次数暴涨 100 倍，账单总额反而是涨的。第 11 篇 Agent Token 降 75% 里详细拆过 4 条工程路径，价格战给 Agent 平台的净影响是——不做工程优化的团队被打爆，做了工程优化的团队反而拉开了差距。

模型训练方（分化明显）：训练侧的玩家在 24 个月里出现明显分层——头部 4 家（豆包 / 通义 / DeepSeek / Kimi）能靠 API 收入 + 内部业务 + 云销售组合走通商业闭环；腰部玩家（智谱、MiniMax、百川、零一万物、阶跃、月之暗面等）在"训练成本 vs API 收入"这道题上答得吃力，大部分要靠融资和政府采购续命；尾部若干家在 2025 年下半年陆续退出通用大模型赛道，转向垂直行业模型或应用层。价格战最狠的杀伤力不在"卖 API 赚不到钱"，而在"融资估值坍塌"——2024 年 100 亿美金估值的模型公司，到 2026 年拿不到 30 亿。

六、一个可复现的成本对比表：跑一遍就知道自己该选谁

上面所有分析都能落到一个可跑的成本对比脚本里。给一个 12 个月的假设消耗（月均 10 亿 tokens 输入 + 3 亿 tokens 输出、缓存命中率 50%），代入 6 家主流模型的公开定价，生成成本对比表：

# chapter-26-china-llm-price-war/src/cost_compare.pyfromdataclassesimportdataclassfromtypingimportOptional@dataclass(frozen=True)classModelPricing:name:strinput_price_per_m:float# 元/百万 tokens（列表价）output_price_per_m:float# 元/百万 tokenscache_discount:float# 命中缓存的输入折扣（例如 0.1 表示 1 折）notes:str=""MODELS_2026Q2=(ModelPricing("DeepSeek-V3",0.5,8.0,0.1,"缓存命中 1 折"),ModelPricing("DeepSeek-R1",1.0,16.0,0.1,"推理档位"),ModelPricing("豆包 1.5-pro",0.8,2.0,0.2,"字节内部使用量最大"),ModelPricing("通义 Qwen-Max",4.0,12.0,0.5,"旗舰对标 GPT-4"),ModelPricing("Kimi K1.5",2.0,10.0,0.25,"长文本 + Context Caching"),ModelPricing("智谱 GLM-4.5",1.5,6.0,0.5,"高端档位"),)defmonthly_cost(model:ModelPricing,input_tokens_m:float,output_tokens_m:float,cache_hit_rate:float)->float:"""按月计算总账单（元）。"""cache_hit_input=input_tokens_m*cache_hit_rate cache_miss_input=input_tokens_m*(1-cache_hit_rate)input_cost=(cache_miss_input*model.input_price_per_m+cache_hit_input*model.input_price_per_m*model.cache_discount)output_cost=output_tokens_m*model.output_price_per_mreturninput_cost+output_cost# 场景：月 10 亿输入 + 3 亿输出、缓存命中率 50%forminMODELS_2026Q2:cost=monthly_cost(m,1000,300,0.5)print(f"{m.name:20s}月账单 ¥{cost:,.0f}({m.notes})")

跑出来的结果（模型定价均为 2026-Q2 公开数据快照，不代表实时刊例价）：

模型	月账单（元）	相对 DeepSeek-V3 倍率
豆包 1.5-pro	¥1,080	0.40×
DeepSeek-V3	¥2,675	1.00×
智谱 GLM-4.5	¥2,925	1.09×
Kimi K1.5	¥4,250	1.59×
DeepSeek-R1	¥5,350	2.00×
通义 Qwen-Max	¥6,600	2.47×

一个反直觉的观察：豆包 1.5-pro 的月账单在这个场景下反而比 DeepSeek-V3 更低——原因是它的输出价格档只有 2 元/M，是 V3 的 1/4。这也说明"哪家便宜"这个问题在 2026 年不再有唯一答案，答案取决于你的输入输出比、缓存命中率、以及是否需要推理档位（R1 / K1.5 反思型）。这也是 chapter-26 配套代码里做敏感性分析的核心用途——把你的真实业务参数代进去，才能知道自己该选谁。

七、展望 2026H2 / 2027：价格锚会不会二次跳水

24 个月复盘完，最有价值的问题是——下一次跳水会不会来？什么时候来？

短期（2026H2）不会有大跳水，理由是三个：

头部 3 家（DeepSeek / 豆包 / 通义）已经在薄利区间，进一步降 30% 会集体倒挂；
能力上没有代差，谁先降就等于送市场份额；
OpenAI 和 Anthropic 已经跟到"国产价格的 5-15 倍"这个区间，再往下压反而让国际厂商跟得更容易。

中期（2027 全年）大概率会有一次结构性跳水，原因也是三个：

推理芯片国产化率：2026 年昇腾 910C + 寒武纪 590 大规模量产后，头部模型厂商的 GPU 成本能再降 30-50%，2027 年会把这一块红利释放到 API 价格上；
长上下文推理架构：Mamba / RWKV / MoE + 稀疏 attention 的组合让长上下文推理成本从"和长度成平方关系"变成"和长度成线性关系"，128K 以上的档位会有一次显著降价；
Agent 场景的规模效应：Agent 平台占 API 总消耗量的比例从 2024 年的 10% 提升到 2026 年的 40%、2027 年预计 60%+，这个使用密度会让厂商愿意针对"高频重复调用"再切一档专用低价 SKU。

长期（2028 之后）价格战会转移战场——从"每千 tokens 单价"转到"每个 Agent 任务完成的总成本"、从"API 价格"转到"包括数据 / 工具 / 编排在内的解决方案价格"。这个转移的信号已经在出现——DeepSeek 2026-Q2 悄悄推出 Agent 专用 API 档、豆包在扣子平台上打包定价、通义把百炼平台的智能体编排费单独计价，都是这个方向。

24 个月复盘的最简洁总结：第一次冲击波是"降价打口号"、第二次冲击波是"工程降本"、第三次冲击波是"重定义全球价格锚"，下一次跳水的关键词会是"重新定义计费单元"——从卖 tokens 变成卖任务完成。如果这个判断成立，2027 年 API 定价页上会开始出现"per-task"这一列，配合"per-1M-tokens"并列展示。

一个开放问题：当"每千 tokens 单价"这个维度已经被打到接近推理边际成本、当 Agent 平台占据大部分调用量、当推理芯片国产化率翻倍——API 计费单元从"tokens"迁移到"任务"会不会成为下一次跳水的形态？我倾向的判断是：会，但时间点会晚于市场预期——大概率是 2027H2 才有第一家头部厂商正式推出"per-task"计价档。欢迎在评论区聊聊你们的真实观察路径。

相关资源：
模型广场：https://activity.ldzktoken.com/activity/index.html
小程序"点点词元" — 多模型统一调度平台，OpenAI 兼容协议，Anthropic 兼容协议。
GitHub 配套源码：https://github.com/fangzehui/llm-tech-articles/tree/main/chapters/chapter-26-china-llm-price-war
（含本文用到的国产大模型价格战工具集：24 个月价格快照数据集 + 成本敏感性分析器 + 6 家模型月账单对比脚本 + pytest 全绿用例）

上下文延伸阅读：

chapter-17-prompt-cache：Prompt Caching 成本实测横评，与本文第四节"KV Cache 优化"呼应；
chapter-11-agent-token-saving：Agent Token 降 75% 的 4 条工程路径，与本文第五节"Agent 平台成本压力"呼应；
chapter-25-mcp-ecosystem-observation：MCP 生态 12 个月观察，价格战的下一个战场（Agent × 工具编排）；
chapter-24-agent-memory-evolution：Agent 长期记忆三代演进，长上下文降价对记忆架构的直接影响。

本文国产大模型价格战时间线、分玩家复盘、成本敏感性模型、下游净影响分析等内容来源于新华网、新华社经济参考报、每日经济新闻、21 世纪经济报道、新京报贝壳财经、36 氪、腾讯新闻、证券时报、Forbes China、火山引擎/阿里云百炼/百度智能云千帆/腾讯云/DeepSeek/Moonshot 官方公告与定价页、arXiv 论文与 GitHub 仓库，截至 2026-07-08；大模型 API 定价变化较快，具体价格档位与折扣规则请以各家官方定价页实时显示为准。文中月账单对比、敏感性分析、可持续性判定仅基于本文公开场景假设与公式，不代表任何厂商的 SLA 承诺或商业推荐，具体业务选型请以自家压测与成本结构为准。如发现事实性错误，欢迎评论区指正，会在附录以 errata 形式同步修订。

查看全文

http://www.cnnetsun.cn/news/3153621.html