当前位置：首页 > news >正文

AI Agent成本暴雷：OpenClaw+DeepSeek V4生产部署与精细化计费实践

news 2026/6/22 7:20:45

1. 项目概述：当“龙虾模型”撞上 DeepSeek V4 的真实成本账本

“用 DeepSeek V4 跑龙虾模型，费用账单出炉后我无言以对”——这句话不是段子，是我上周五下午盯着邮箱里那封 AWS Cost Explorer 报告时的真实生理反应。手指悬在键盘上方三秒没动，咖啡凉透，屏幕右下角的系统时间从 17:02 走到 17:05，我点开 Excel 表格里那个标红的$287.63，又切回终端里还在滚动的日志：openclaw-agent | INFO | Executing skill: scrape_product_details (retry #3)。那一刻我突然意识到，我们这代人搞 AI Agent 开发，正在集体经历一个认知断层：模型能力指数级跃升，而成本感知还卡在“调个 API 按 token 收费”的旧地图上。

标题里的“龙虾模型”，指的就是 OpenClaw —— 一个开源、可本地部署、专注任务自动化与多步工作流编排的 AI Agent 框架。它不靠大模型原生推理，而是把 LLM 当作“大脑”，把浏览器控制、API 调用、文件操作、数据库读写这些能力拆成一个个可注册、可组合、可调试的skill（技能），再由一个轻量级调度器按需调用。你让它“登录飞书多维表格，抓取本周销售数据，生成 PPT 汇报页，邮件发给总监”，它真能一步步干完，中间出错还能自动重试、降级、报错定位。这种“能干活”的 Agent，和纯聊天机器人有本质区别：它要持续运行、要访问真实系统、要处理结构化数据、要应对网页 DOM 变更、要扛住接口限流……每一项，都在悄悄往账单里塞钱。

而 DeepSeek V4，是当前中文场景下少有的、能在长上下文（128K）、强代码能力（HumanEval 78.2%）、高响应速度（A100 上 7B 模型实测首 token <300ms）三项指标上同时达标的开源模型。它不像某些闭源模型那样藏着“隐藏收费开关”，API 接口干净，文档清晰，支持流式输出、function calling、tool use 等 Agent 必需能力。但正因如此，它的“透明”反而成了成本暴雷的导火索——你清楚知道每一步推理花多少 token，也就清楚知道，当 OpenClaw 在一个工作流里调用它 17 次、每次喂进去 8K tokens 的上下文（含历史对话、页面 HTML、JSON Schema、错误日志），账单数字会以什么斜率往上蹿。

这个项目不是玩具。它跑在一台 2×A100 80G 的云服务器上，服务着我们内部三个业务线的自动化需求：影刀 RPA 流程的智能决策节点、飞书多维表格的数据清洗中台、以及一个对接国药控股 ERP 系统的库存预警 agent。标题里那个“无言以对”，不是抱怨贵，而是震惊于——原来让 AI 真正“做事”，成本结构和纯聊天完全不同：GPU 显存占用是刚性的，推理延迟是服务 SLA 的底线，而 token 消耗是随任务复杂度非线性爆炸的。我下面要讲的，就是这张账单背后，每一笔钱到底花在了哪儿，哪些能砍，哪些必须付，以及为什么你照着 GitHub README 部署完 OpenClaw + DeepSeek V4，第二天就可能收到一封让你想删库跑路的账单邮件。

2. 核心技术栈拆解：OpenClaw 如何把 DeepSeek V4 当“打工人”使

2.1 OpenClaw 的架构本质：一个“技能驱动”的状态机调度器

很多人第一次看 OpenClaw 文档，容易把它当成另一个 LangChain 或 LlamaIndex 的封装库，这是最大的误解。LangChain 是“胶水”，把各种工具粘在一起；LlamaIndex 是“索引”，帮大模型找文档；而 OpenClaw 是“工头”，它自己不写代码、不爬网页、不连数据库，但它精确地告诉谁、在什么时候、用什么参数、去干哪一件具体的事。

它的核心抽象只有三层：

Skill（技能）：一段带明确输入/输出契约的可执行代码。比如scrape_product_details.py，它接收一个 URL 和一个 CSS 选择器字典，返回一个结构化的 JSON 对象{name, price, stock, sku}。这个文件本身就是一个独立脚本，你可以单独测试、单独部署、单独监控。OpenClaw 不关心它内部是用 Playwright 还是 Selenium，是调用 Requests 还是 httpx，只要它符合约定的input_schema.json和output_schema.json，就能被注册进系统。

Agent（代理）：一个 YAML 文件，定义了“做什么”。它不写逻辑，只写流程图。例如：

name: "daily_inventory_check" description: "检查飞书多维表格中的SKU库存，低于阈值则触发ERP预警" steps: - skill: "fetch_feishu_table" input: { app_token: "{{env.FEISHU_APP_TOKEN}}", table_id: "tbl_xxx" } output_key: "raw_data" - skill: "parse_inventory_json" input: { data: "{{steps.0.output}}" } output_key: "parsed_items" - skill: "check_stock_threshold" input: { items: "{{steps.1.output}}", threshold: 5 } output_key: "low_stock_items" - skill: "call_erp_api" input: { items: "{{steps.2.output}}", endpoint: "{{env.ERP_ENDPOINT}}" } condition: "{{steps.2.output|length > 0}}"

注意condition字段——这才是 Agent 的灵魂。它让整个流程具备分支、循环、条件跳过的能力，而这一切，都不需要你写一行 Python 的if/else。

Runtime（运行时）：一个轻量级 Python 进程，负责加载 Agent YAML，解析steps，按顺序或并行调用 Skill，并把上一步的output注入下一步的input。它本身几乎不占 CPU，主要开销在序列化/反序列化 JSON、环境变量注入、日志记录。真正的计算压力，全在 Skill 里。

所以，当你“用 DeepSeek V4 跑龙虾模型”，DeepSeek V4 并不是直接跑在 OpenClaw 的 Runtime 里。它只是被注册为一个特殊的 Skill，叫deepseek_v4_inference。这个 Skill 的作用，是接收一段 prompt（由 Agent YAML 中的prompt_template.j2渲染而来），调用 DeepSeek V4 的/v1/chat/completionsAPI，拿到 JSON 响应，再按约定格式提取content或tool_calls字段，塞回 Agent 的数据流里。DeepSeek V4 在这里，就是一个高度专业化的“决策模块”，一个“打工人”。

2.2 DeepSeek V4 的接入方式：为什么不是“直接加载模型”，而是走 API？

OpenClaw 官方文档里有一句不起眼的话：“推荐将大语言模型作为远程服务接入，而非本地加载。” 这句话背后，是血泪教训换来的工程判断。

先说结论：在生产环境中，99% 的 OpenClaw 部署，都应该把 DeepSeek V4 部署为一个独立的、带负载均衡的 API 服务，而不是让每个 OpenClaw Worker 进程都from transformers import AutoModelForCausalLM加载一遍模型。原因有三：

显存隔离与稳定性：A100 80G 显存看着很大，但 DeepSeek V4 的 7B 版本（FP16）加载后约占用 14GB 显存，14B 版本约 28GB。如果你的 OpenClaw 有 5 个 Worker 并发执行，每个 Worker 都加载一份模型，显存瞬间爆满，OOM 杀死进程是常态。而独立 API 服务，你可以用 vLLM 或 Text Generation Inference（TGI）做模型共享，5 个请求共用同一份模型权重，显存占用恒定在 28GB，吞吐量反而更高。
版本灰度与热更新：业务上线后，你不可能因为要升级 DeepSeek V4 的 patch 版本，就重启所有 OpenClaw Worker。而 API 服务可以做蓝绿发布：新版本 API 启动，流量切 10%，观察日志和成功率，没问题再切 100%。OpenClaw Worker 完全无感。
成本计量与审计：这是标题里“费用账单”的关键。API 服务天然自带请求计数、token 统计、响应延迟监控。你可以在 API 层面加一层middleware，记录每一次调用的model_name、prompt_tokens、completion_tokens、total_tokens、user_id（对应哪个 Agent）、skill_name。这些数据，才是你后续做成本分摊、预算控制、ROI 分析的唯一可信来源。如果模型嵌在 Worker 里，你只能靠日志正则去扒，漏掉 1% 的请求，账单就对不上。

因此，我们实际的部署拓扑是这样的：

[OpenClaw Worker] ↓ (HTTP POST /v1/chat/completions) [DeepSeek V4 API Gateway] → [vLLM Server Pool (2×A100)] ↓ (Prometheus metrics + structured logging) [AWS CloudWatch + Grafana]

API Gateway 不是简单的反向代理。它做了三件事：

Token 预估：在请求到达 vLLM 前，用tiktoken对messages数组做预估，拒绝total_tokens > 128000的超长请求，避免 vLLM 卡死；
缓存穿透防护：对重复的、确定性的 prompt（如“请将以下 JSON 转为 CSV”），加一层 Redis 缓存，命中率约 35%，直接省下 35% 的推理成本；
强制采样：所有请求默认加temperature=0.3、top_p=0.9，禁用temperature=1.0的“自由发挥”模式，因为 Agent 的任务，99% 需要的是确定性输出，不是创意。

提示：不要用curl直连 vLLM 的/generate接口。vLLM 的/generate是为单次、低延迟、高吞吐的 chat 场景设计的，它不校验messages格式，不支持tool_choice，返回的 JSON 结构也和 OpenAI 兼容 API 不同。OpenClaw 的deepseek_v4_inferenceSkill 内部，必须调用的是/v1/chat/completions这个兼容端点，否则tool_calls解析会失败，导致整个 Agent 工作流卡死在第三步。

2.3 “龙虾模型”的真实工作流：一次典型任务的成本构成

我们拿标题里最常被吐槽的场景举例：“影刀 RPA + 飞书多维表格 + 数据采集”。这是一个真实跑在我们生产环境的 Agent，每天上午 9:00 自动执行，目标是：从飞书多维表格拉取“抖店商品上架清单”，比对本地 ERP 库存，对缺货 SKU 自动在抖店后台创建预售链接，并更新飞书表格状态列。

整个流程在 OpenClaw 中定义为一个 12 步的 Agent。我们截取其中最关键的 4 步，看 DeepSeek V4 的成本是如何被“挤”出来的：

步骤	Skill 名称	输入内容特征	DeepSeek V4 调用次数	平均 prompt_tokens	平均 completion_tokens	主要消耗点
3	`parse_feishu_response`	飞书返回的原始 JSON（含 200 行商品数据，每行 50 字段）	1	8,240	1,050	上下文长度：必须喂全量数据才能准确提取字段，无法分块
5	`generate_douyin_listing_prompt`	商品名、规格、主图 URL、库存数（结构化）	1	2,180	3,420	输出长度：生成的抖店上架文案要求 300+ 字，且含特定营销话术模板
8	`debug_html_error`	Playwright 截获的抖店后台报错 HTML（含 JS 错误堆栈）	3（平均重试次数）	5,600	890	重试放大：一次失败触发 3 次推理，每次都要重传完整 HTML
11	`summarize_daily_report`	今日执行日志（含 12 步的 success/fail 状态、耗时、错误信息）	1	4,320	1,280	日志聚合：需要理解非结构化日志语义，生成高管可读摘要

粗略计算：单次完整执行，DeepSeek V4 总消耗 ≈(8240+1050) + (2180+3420) + 3×(5600+890) + (4320+1280) = 38,380 tokens。

按 DeepSeek V4 Pro 的公开定价（假设你用的是某云厂商的托管服务，$0.0004 / 1K tokens 输入，$0.0012 / 1K tokens 输出），单次成本 =(38380 × 0.0004)/1000 + (38380 × 0.0012)/1000 ≈ $0.614。

一天执行 1 次？$0.614。
一天执行 10 次（比如按小时轮询）？$6.14。
一个月（30 天）？$184.2。

但这只是 DeepSeek V4 的成本。还没算：

A100 GPU 的小时租用费（$2.19/h × 24h × 30 = $1576.8）；
OpenClaw Worker 的 CPU/内存费用（$0.12/h × 24h × 30 = $86.4）；
飞书 API 调用费（按调用量阶梯计费，月均 $42）；
Playwright 浏览器实例的内存开销（额外 16GB RAM，$0.08/h × 24h × 30 = $57.6）。

总月成本 ≈ $1950.2。而这个 Agent 替代的是一个半职员工（月薪约 $1200），账单出来那一刻，我确实无言以对——不是贵，而是贵得“合理”，贵得“无法反驳”。它干的活，远超一个员工。

3. 实操部署与成本优化：从“账单暴击”到“精打细算”

3.1 DeepSeek V4 API 服务的最小可行部署（vLLM + FastAPI）

别被“vLLM”、“TGI”这些词吓住。在 A100 上部署一个生产可用的 DeepSeek V4 API，核心就三步：装、配、启。我用的是最轻量、社区支持最好的 vLLM 方案，因为它对 DeepSeek V4 的attention_mask和position_ids兼容性最好，且启动命令极其简单。

第一步：基础环境准备（A100 80G，Ubuntu 22.04）

# 创建专用 conda 环境，避免和系统 Python 冲突 conda create -n deepseek-v4 python=3.10 conda activate deepseek-v4 # 安装 vLLM（注意：必须用 CUDA 12.1 编译的版本，A100 默认驱动支持） pip install vllm==0.4.2 --extra-index-url https://download.pytorch.org/whl/cu121 # 下载 DeepSeek V4 模型（官方 HuggingFace 仓库） # 注意：不要用 `git lfs clone`，太慢。用 huggingface-hub 的 CLI pip install huggingface-hub huggingface-cli download deepseek-ai/deepseek-v4-pro --local-dir ./models/deepseek-v4-pro --revision main

实操心得：模型下载是第一个坑。deepseek-ai/deepseek-v4-pro仓库里有多个分支（main,flash,qlora）。flash分支是量化版（4-bit），显存占用降到 8GB，但推理质量下降明显（HumanEval 从 78.2% 降到 62.1%），Agent 任务中常出现tool_calls格式错误。我们生产环境坚持用main分支的 FP16 全量模型，宁可多花点钱，也要保证 100% 的格式正确率。qlora分支是训练用的，别下。

第二步：编写 FastAPI 封装层（api_server.py）

vLLM 本身提供了一个--served-model-name参数，但它的/v1/chat/completions接口缺少我们必需的 token 计费埋点。所以必须包一层 FastAPI：

# api_server.py from fastapi import FastAPI, HTTPException, Depends from vllm import AsyncLLMEngine from vllm.engine.arg_utils import AsyncEngineArgs from vllm.sampling_params import SamplingParams from vllm.utils import random_uuid import tiktoken import time import asyncio import logging app = FastAPI(title="DeepSeek V4 Pro API") logger = logging.getLogger("deepseek-api") # 初始化 vLLM 引擎（关键参数！） engine_args = AsyncEngineArgs( model="./models/deepseek-v4-pro", tensor_parallel_size=2, # 2×A100，必须设为2 gpu_memory_utilization=0.95, # 榨干显存，但留5%余量防OOM max_model_len=128000, # 严格匹配 DeepSeek V4 的上下文 enforce_eager=False, # True 会降低吞吐，False 更快 dtype="half", # FP16，平衡速度和精度 ) engine = AsyncLLMEngine.from_engine_args(engine_args) # 初始化 tiktoken 编码器（DeepSeek V4 用的是 deepseek-coder 的 tokenizer） enc = tiktoken.get_encoding("deepseek-coder") @app.post("/v1/chat/completions") async def chat_completions(request: dict): start_time = time.time() # 1. Token 预估与拦截 try: messages = request.get("messages", []) prompt_text = "" for msg in messages: if msg["role"] == "user": prompt_text += msg["content"] elif msg["role"] == "assistant": prompt_text += msg["content"] prompt_tokens = len(enc.encode(prompt_text)) if prompt_tokens > 120000: # 留 8K 余量给 completion raise HTTPException(status_code=400, detail=f"Prompt too long: {prompt_tokens} > 120000") except Exception as e: logger.error(f"Token estimation failed: {e}") raise HTTPException(status_code=400, detail="Invalid input format") # 2. 构造 vLLM SamplingParams sampling_params = SamplingParams( temperature=request.get("temperature", 0.3), top_p=request.get("top_p", 0.9), max_tokens=request.get("max_tokens", 2048), stop=request.get("stop", []), tool_choice=request.get("tool_choice", "auto"), ) # 3. 调用 vLLM 引擎 try: request_id = random_uuid() results_generator = engine.generate( messages, sampling_params, request_id, ) # 流式响应（OpenClaw 需要） async def stream_results(): async for request_output in results_generator: if request_output.finished: completion_tokens = len(enc.encode(request_output.outputs[0].text)) total_tokens = prompt_tokens + completion_tokens # 关键！记录到日志，供后续成本分析 logger.info(f"REQ_ID:{request_id} | MODEL:deepseek-v4-pro | " f"PROMPT:{prompt_tokens} | COMP:{completion_tokens} | " f"TOTAL:{total_tokens} | TIME:{time.time()-start_time:.2f}s | " f"USER:{request.get('user', 'unknown')}") yield { "id": f"chatcmpl-{request_id}", "object": "chat.completion.chunk", "created": int(time.time()), "model": "deepseek-v4-pro", "choices": [{ "index": 0, "delta": {"content": request_output.outputs[0].text}, "finish_reason": "stop" if request_output.finished else None }] } return StreamingResponse(stream_results(), media_type="text/event-stream") except Exception as e: logger.error(f"vLLM inference failed: {e}") raise HTTPException(status_code=500, detail=str(e))

第三步：启动服务（一行命令）

# 启动 FastAPI + vLLM 服务 CUDA_VISIBLE_DEVICES=0,1 python api_server.py --host 0.0.0.0 --port 8000 # 验证是否正常（用 curl 测试） curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ -d '{ "model": "deepseek-v4-pro", "messages": [{"role": "user", "content": "你好，请用中文回答"}], "temperature": 0.3 }'

注意事项：tensor_parallel_size=2是硬性要求。如果你只有一块 A100，必须改成1，否则启动失败。gpu_memory_utilization=0.95是经验值，设太高（0.98）会导致偶尔 OOM，设太低（0.8）则显存浪费严重。max_model_len=128000必须和模型能力严格一致，否则 vLLM 会静默截断输入，导致 Agent 拿到错误的上下文。

3.2 OpenClaw 的 Skill 注册：如何让 DeepSeek V4 成为“可插拔”的决策模块

OpenClaw 的 Skill，本质就是一个 Python 函数 + 一个 YAML 描述文件。我们来写一个生产级的deepseek_v4_inferenceSkill。

Skill 目录结构：

skills/ └── deepseek_v4_inference/ ├── __init__.py ├── skill.py # 核心逻辑 ├── input_schema.json # 输入契约 ├── output_schema.json # 输出契约 └── config.yaml # 运行时配置

input_schema.json（定义 Skill 接收什么）：

{ "type": "object", "properties": { "prompt": { "type": "string", "description": "完整的用户 prompt，已由 Agent 模板渲染好" }, "system_message": { "type": "string", "description": "可选的 system message，用于设定模型角色" }, "max_tokens": { "type": "integer", "default": 2048, "minimum": 1, "maximum": 128000 } }, "required": ["prompt"] }

output_schema.json（定义 Skill 返回什么）：

{ "type": "object", "properties": { "response": { "type": "string", "description": "模型生成的纯文本响应" }, "tool_calls": { "type": "array", "items": { "type": "object", "properties": { "name": {"type": "string"}, "arguments": {"type": "string"} } } }, "prompt_tokens": {"type": "integer"}, "completion_tokens": {"type": "integer"}, "total_tokens": {"type": "integer"} }, "required": ["response"] }

skill.py（核心逻辑，重点看错误处理和重试）：

import requests import json import time import logging from typing import Dict, Any logger = logging.getLogger("deepseek-skill") def execute(input_data: Dict[str, Any]) -> Dict[str, Any]: # 1. 构造 API 请求体 messages = [] if input_data.get("system_message"): messages.append({"role": "system", "content": input_data["system_message"]}) messages.append({"role": "user", "content": input_data["prompt"]}) payload = { "model": "deepseek-v4-pro", "messages": messages, "temperature": 0.3, "top_p": 0.9, "max_tokens": input_data.get("max_tokens", 2048), "user": input_data.get("user_id", "openclaw-worker") # 用于成本分摊 } # 2. 带退避的重试机制（网络抖动是常态） for attempt in range(3): try: response = requests.post( "http://deepseek-api.internal:8000/v1/chat/completions", json=payload, timeout=(10, 60) # connect:10s, read:60s ) response.raise_for_status() # 3. 解析响应（OpenAI 兼容格式） resp_json = response.json() choices = resp_json.get("choices", []) if not choices or not choices[0].get("message"): raise ValueError("Invalid API response: no choices or message") message = choices[0]["message"] result = { "response": message.get("content", ""), "tool_calls": message.get("tool_calls", []), "prompt_tokens": resp_json.get("usage", {}).get("prompt_tokens", 0), "completion_tokens": resp_json.get("usage", {}).get("completion_tokens", 0), "total_tokens": resp_json.get("usage", {}).get("total_tokens", 0) } logger.info(f"DeepSeek V4 call success. Tokens: {result['total_tokens']}") return result except requests.exceptions.Timeout: logger.warning(f"DeepSeek API timeout on attempt {attempt + 1}. Retrying...") time.sleep(2 ** attempt) # 指数退避：1s, 2s, 4s except requests.exceptions.ConnectionError: logger.error("DeepSeek API connection failed. Check network.") raise except Exception as e: logger.error(f"DeepSeek API error on attempt {attempt + 1}: {e}") if attempt == 2: # 最后一次失败，抛出 raise raise RuntimeError("DeepSeek V4 API failed after 3 retries")

config.yaml（定义 Skill 如何被发现）：

name: "deepseek_v4_inference" description: "Use DeepSeek V4 Pro to generate responses or parse tool calls" version: "1.0.0" author: "your-team" input_schema: "input_schema.json" output_schema: "output_schema.json" entry_point: "skill:execute"

注册 Skill 到 OpenClaw：

# 假设 OpenClaw 的根目录是 /opt/openclaw cp -r skills/deepseek_v4_inference /opt/openclaw/skills/ # 重启 OpenClaw Worker，它会自动扫描并加载新 Skill sudo systemctl restart openclaw-worker

实操心得：timeout=(10, 60)这个参数是血泪教训。connect超时设太短（<5s），网络抖动就失败；read超时设太短（<30s），一个长上下文的推理（如解析 200 行 JSON）必然超时。我们最终定为(10, 60)，并在日志里记录每次调用的实际耗时，发现 95% 的请求在 8.2s 内完成，P99 是 22.4s。另外，user字段传入openclaw-worker是为了在 API 日志里区分流量来源，方便后续做成本归因——这笔钱，到底是daily_inventory_checkAgent 花的，还是douyin_listingAgent 花的。

3.3 成本精细化管控：从“总账单”到“每行代码”的成本透视

账单暴击之后，我们做的第一件事，不是砍功能，而是建监控。没有数据，一切优化都是拍脑袋。我们搭建了一套极简但有效的成本追踪链路：

数据采集层（Logstash + Filebeat）：
OpenClaw Worker 和 DeepSeek API 的日志，全部输出为 JSON 格式，通过 Filebeat 发送到 Logstash。

数据富化层（Logstash Filter）：
在 Logstash 里，我们用grok解析 API 日志中的REQ_ID，再用jdbc_streaming查询 OpenClaw 的 PostgreSQL 数据库，把REQ_ID关联到具体的agent_name、skill_name、step_number、user_id。一条原始日志：

INFO REQ_ID:abc123 | MODEL:deepseek-v4-pro | PROMPT:8240 | COMP:1050 | TOTAL:9290 | TIME:4.21s | USER:openclaw-worker

被富化为：

{ "req_id": "abc123", "model": "deepseek-v4-pro", "prompt_tokens": 8240, "completion_tokens": 1050, "total_tokens": 9290, "latency_ms": 4210, "agent_name": "daily_inventory_check", "skill_name": "parse_feishu_response", "step_number": 3, "user_id": "inventory-team" }

数据存储与分析层（PostgreSQL + Metabase）：
所有富化后的日志，存入 PostgreSQL 的cost_log表。我们用 Metabase 做可视化看板，核心看板有三个：

实时成本流（Last 24h）：折线图，Y 轴是$，X 轴是时间，每分钟聚合一次。一眼看出哪个时段成本飙升（比如凌晨 2 点有定时任务，或者有人误触了重放按钮）。
Agent 成本排行榜（This Month）：柱状图，按agent_name分组，求和total_tokens * cost_per_token。我们发现，daily_inventory_check占了总成本的 68%，而douyin_listing只占 12%。这直接指导了我们的优化优先级。
Token 消耗热力图（By Step）：表格，行是agent_name，列是step_number，单元格是avg(total_tokens)。我们立刻发现，daily_inventory_check的第 3 步（parse_feishu_response）平均消耗 8240 tokens，是所有步骤里最高的，且标准差很小（±50 tokens），说明输入数据量非常稳定——这就是一个完美的优化靶点。

优化落地（针对第 3 步）：
既然输入数据量稳定，我们就不能每次都喂全量。我们改写了parse_feishu_response这个 Skill：

旧逻辑：把飞书返回的 200 行 JSON 全部塞进 prompt，让 DeepSeek V4 逐行解析。
新逻辑：
1. 先用 Python 的jsonpath-ng库，用$.items[*].sku提取出所有 SKU 列表（10ms）；
2. 再用jsonpath-ng提取出所有stock字段（10ms）；
3. 只把{"skus": ["SKU001", "SKU002", ...], "stocks": [12, 0, 5, ...]}这个极简结构喂给 DeepSeek V4，让它判断哪些stock == 0；
4. DeepSeek V4 的输出，从原来的 200 行 JSON，变成一个 5 行的数组["SKU001", "SKU005", "SKU102", ...]。

结果：prompt_tokens从 8240 降到 320，降幅 96%。单次执行总成本，从 $0.614 降到 $0.042。一个月省下 $171.24。

注意事项：这种优化的前提，是你对输入数据的 schema 有 100% 的把握。飞书多维表格的字段名一旦变更（比如stock改成available_stock），jsonpath-ng就会提取失败，整个流程中断。所以我们在 OpenClaw 的 Agent YAML 里，为这一步加了fallback_skill：如果jsonpath-ng提取为空，则降级为老逻辑，用全量 JSON 喂给 DeepSeek V4。降级是昂贵的，但比流程完全失败好。这就是生产环境的哲学：优雅降级，永远比绝对正确更重要。