当前位置：首页 > news >正文

Notebook到生产环境的ML模型落地实战指南

news 2026/7/4 15:37:59

1. 项目概述：这不是一次“部署上线”，而是一场从实验室到产线的系统性迁移

“From Notebook to Production: Running ML in the Real World (Part 4)”——这个标题里藏着一个被太多人轻描淡写、却让无数团队在交付前夜崩溃的真实命题。它不是教你怎么把model.fit()跑通，也不是展示Jupyter里那条漂亮的ROC曲线；它是第四部分，意味着前三部分已经铺完了数据清洗的坑、特征工程的弯路、模型选型的试错，而这一part直指所有机器学习项目最脆弱的命门：当模型离开你精心调参的本地环境，进入24小时不间断运行、承受真实流量冲击、需要被非算法工程师维护、还要和遗留系统共存的生产环境时，它还能不能活下来？

我做过17个从0到1落地的ML项目，其中9个卡死在Part 3和Part 4之间。不是模型不准，是API响应超时5秒后被网关熔断；不是效果不好，是特征服务凌晨三点因内存泄漏OOM，导致整个推荐流降级为随机排序；不是代码写错，是Docker镜像里Python版本和线上K8s节点内核不兼容，容器反复CrashLoopBackOff。这些事不会出现在arXiv论文里，但会出现在运维告警群里、客户投诉邮件里、季度复盘PPT的“风险项”第一页。

所以Part 4的本质，是一场工程能力的全面体检：它检验你是否真正理解模型不只是数学公式，更是运行在Linux进程里的服务；检验你是否意识到特征不是DataFrame列，而是需要低延迟、高一致性的数据管道；检验你是否接受“准确率提升0.3%”的价值，可能远低于“接口P99延迟压到120ms以内”的业务权重。它面向三类人：刚跑通Notebook的算法同学（别急着提PR，先看看你的模型能不能扛住100QPS）、带团队的技术负责人（你敢不敢在SLO里写明“模型服务可用性≥99.95%”）、还有被临时拉来救火的后端工程师（没错，就是你，那个昨天还在改Java微服务、今天被告知要给TensorFlow Serving加gRPC健康检查的人）。

核心关键词“Notebook to Production”不是路径描述，而是冲突现场——一边是交互式、单机、重实验的开发范式，一边是分布式、多实例、重稳定的服务范式。这场迁移失败的根源，90%不在模型本身，而在对“生产环境”四个字的物理意义缺乏敬畏：它意味着磁盘IO瓶颈、网络抖动、时钟漂移、依赖包版本雪崩、日志轮转策略失效、甚至机房空调故障引发的GPU温度告警。Part 4要解决的，正是如何把这种敬畏，转化成可落地的架构决策、可验证的监控指标、可回滚的发布流程。接下来的内容，没有理论推导，只有我在金融风控、电商搜索、IoT设备预测三个领域踩出的血路，以及每一步背后“为什么必须这样干”的硬逻辑。

2. 核心设计思路：放弃“一键部署”，拥抱“分层解耦+渐进验证”

很多团队一上来就想搞“MLOps平台”，结果半年过去，平台还没跑通Hello World，业务需求已迭代三版。Part 4的成功，不取决于你用了多少酷炫工具，而在于是否构建了可独立演进、可单独验证、故障可精准隔离的四层结构。这不是我的发明，而是从Netflix、Uber、Airbnb等公司公开技术博客里，结合我们自己三次重构沉淀出的最小可行范式。

2.1 四层解耦架构：让每个模块只操心自己的事

我把生产化流程拆成四个物理隔离、接口契约化的层，每一层都有明确的输入/输出、SLA承诺和Owner：

Layer 1：模型资产层（Model Artifact Layer）
输出物：一个不可变的、带完整元数据的模型包（tar.gz或OCI镜像）。它不包含任何业务逻辑、不读取数据库、不调用外部API。只做一件事：接收标准化输入（如JSON dict），返回标准化输出（如{"score": 0.87, "class": "fraud"}）。我坚持用joblib或torch.save保存原生模型，而非ONNX——因为ONNX在PyTorch动态图转静态图时，对torch.nn.ModuleList嵌套、自定义forward逻辑的支持仍有隐晦bug，我们在某次大促前夜发现ONNX Runtime推理结果与PyTorch差0.002，排查耗时8小时。元数据必须包含：训练框架及版本（torch==1.13.1+cu117）、输入schema（字段名、类型、shape）、输出schema、训练数据时间范围、验证集指标（AUC=0.923±0.005）。这个包由CI流水线自动生成并上传至私有MinIO，路径规则为/models/{project}/{version}/model.tar.gz，版本号强制语义化（v1.2.0），禁止使用latest标签。
Layer 2：推理服务层（Inference Serving Layer）
输出物：一个暴露REST/gRPC接口的无状态服务。它只做三件事：加载Layer 1的模型包、解析请求、调用模型predict()、格式化响应。绝不碰特征工程代码！我们用FastAPI封装，因为它的async支持能轻松应对特征提取的IO等待（比如查Redis缓存），且OpenAPI文档自动生成，省去Swagger手写。关键设计点：模型加载必须在startup event中完成，且做warmup——用预设的dummy input执行一次predict()，避免首个真实请求触发冷启动延迟。我们曾在线上看到首请求耗时2.3秒（GPU初始化+模型加载），而后续稳定在87ms，这直接导致前端超时重试，流量翻倍。
Layer 3：特征服务层（Feature Serving Layer）
输出物：一个提供低延迟（P99<50ms）、强一致性（最终一致即可）的特征读取服务。它和Layer 2物理分离，通过gRPC通信。这里必须放弃“模型服务里直接连MySQL查特征”的野路子。我们用Feast作为基础框架，但做了关键改造：将离线特征存储（BigQuery）和在线存储（Redis）的schema校验提前到特征注册阶段，而非运行时。例如，当注册一个名为user_last_7d_order_count的特征时，Feast CLI会自动检查BigQuery表中该字段是否为INT64，Redis中对应key的value是否为字符串数字，若不一致则拒绝注册。这避免了线上出现TypeError: expected int, got str的诡异错误。
Layer 4：编排调度层（Orchestration Layer）
输出物：一个协调Layer 2和Layer 3的轻量级服务。它不处理业务逻辑，只做路由和兜底。例如，当用户请求/predict?user_id=123时，它先调用特征服务获取{user_age: 28, user_last_7d_order_count: 5}，再拼装为模型输入{"age": 28, "order_count": 5}发给推理服务。最关键的是兜底逻辑：如果特征服务超时（>300ms），它必须返回预设的默认特征值（如{"age": 35, "order_count": 0}），并记录warn日志，而不是让整个请求失败。这个层用Go编写，二进制体积小、启动快、无GC停顿，适合做胶水。

提示：四层必须通过明确的API契约（Protobuf IDL）定义交互，禁止任何隐式约定。我们要求所有跨层调用都生成gRPC stub，且IDL文件纳入Git仓库，版本与服务版本对齐。曾因某次更新未同步IDL，导致特征服务返回user_last_7d_order_count: "5"（字符串），而模型服务期待整数，线上报错ValueError: invalid literal for int()，持续17分钟。

2.2 渐进验证：用“影子流量”代替“灰度发布”

传统灰度是切10%真实流量到新服务，但ML服务的灰度风险极高——模型效果偏差可能不会立刻体现在错误率上，而是悄悄降低转化率。我们采用三层验证漏斗，确保问题在影响用户前被捕获：

单元验证（Unit Validation）：在CI阶段，对Layer 1模型包执行pytest tests/test_model_predict.py，用固定seed生成1000条测试数据，验证输出与基准结果diff < 1e-5。这是代码提交的准入门槛。
集成验证（Integration Validation）：在Staging环境，部署完整四层，用生产流量的脱敏副本（Synthetic Traffic）压测。重点看：特征服务P99延迟、推理服务内存增长曲线、gRPC调用成功率。我们用Locust脚本模拟1000QPS，持续30分钟，要求所有指标达标才允许进入下一步。
影子验证（Shadow Validation）：这是Part 4最核心的创新点。新模型服务不参与实际决策，而是并行接收100%生产流量，将请求转发给旧服务，并记录自己的输出。系统实时计算新旧模型输出差异率（如分数绝对差>0.1的比例）、关键路径耗时对比。只有当差异率<0.5%且耗时无劣化，才开启AB测试。我们曾用此方法发现：新模型在user_age > 60的样本上，分数系统性偏低0.15，原因是训练数据中该群体样本不足，但旧模型用规则兜底掩盖了问题——这在灰度发布中绝不可能暴露。

这种设计牺牲了“快速上线”的幻觉，换来了“心里有底”的确定性。它让算法同学第一次能清晰看到：“我的模型改动，在真实场景下到底改变了什么”。

3. 实操细节：从模型打包到服务监控的23个关键动作

纸上谈兵毫无意义。Part 4的价值，全在那些文档里不会写、但决定生死的实操细节。以下是我整理的23个必须亲手执行的关键动作，按执行顺序排列，每个都附带“为什么”和“不这么做会怎样”。

3.1 模型资产层：让模型成为可交付的工业品

动作：用pip install --no-deps生成精简requirements.txt
为什么：pip freeze > requirements.txt会包含所有间接依赖（如numpy被pandas依赖），导致镜像臃肿且版本冲突。正确做法是pip install --no-deps -r requirements.in && pip freeze | grep -v "pkg-resources" > requirements.txt，其中requirements.in只写直接依赖（scikit-learn==1.2.2,xgboost==1.7.5）。
后果：某次我们未清理，镜像大小达1.8GB，推送Registry超时，发布延迟2小时。
动作：模型包内嵌health_check.py脚本
为什么：K8s liveness probe不能只检查端口，必须验证模型加载成功。脚本内容：import joblib; model = joblib.load("model.pkl"); print(model.predict([[1,2,3]]))。Probe命令设为python health_check.py。
后果：曾因GPU驱动更新，模型加载失败但端口仍通，K8s未重启Pod，服务静默降级。
动作：输入schema强制校验，用Pydantic v2
为什么：Jupyter里df["age"]是int，但生产HTTP请求中可能是字符串"28"。在FastAPI的request body model中，定义age: conint(ge=0, le=120)，自动转换并校验。
后果：未校验时，"28"传入int()报错，500异常，触发告警风暴。
动作：模型序列化时禁用pickle，改用joblib或torch.save
为什么：pickle反序列化会执行任意代码，存在RCE风险；且不同Python版本间不兼容。joblib针对NumPy数组优化，体积小30%，加载快2倍。
后果：某次升级Python 3.9后，旧pickle模型无法加载，紧急回滚。
动作：在模型包中加入benchmark.json
为什么：记录在标准硬件（如AWS g4dn.xlarge）上的基准性能：{"inference_time_ms_p50": 42.3, "inference_time_ms_p99": 87.1, "memory_mb": 1240}。用于容量规划。
后果：无基准时，盲目扩Pod，CPU利用率仅30%，浪费40%云成本。

3.2 推理服务层：把模型变成可靠的服务

动作：FastAPI中禁用debug=True，且覆盖默认exception_handler
为什么：debug=True会暴露完整traceback，含路径、变量名等敏感信息；默认handler对ValueError返回500，但应返回400。自定义handler：@app.exception_handler(ValueError) async def value_error_handler(request, exc): return JSONResponse({"error": "Invalid input", "detail": str(exc)}, status_code=400)。
后果：debug模式上线，客户看到File "/app/models/fraud_v2.py", line 45, in predict: if user_data['ssn'] is None:，SSN字段名泄露。
动作：gRPC服务必须实现HealthCheck服务
为什么：Service Mesh（如Istio）依赖此接口判断实例健康。实现Check方法，返回status: SERVING。
后果：未实现，Mesh将实例标记为unhealthy，流量0分配，服务不可用。
动作：设置ulimit -n 65536在Dockerfile中
为什么：高并发时，每个连接占一个文件描述符，Linux默认1024，1000QPS瞬间打满。Dockerfile加RUN ulimit -n 65536。
后果：FD耗尽，新连接被拒绝，Connection refused错误。
动作：日志结构化，用structlog输出JSON
为什么：方便ELK采集。每条日志含{"event": "inference_start", "user_id": "123", "model_version": "v1.2.0", "ts": "2023-10-05T08:23:41.123Z"}。
后果：文本日志难grep，故障定位耗时增加5倍。
动作：Metrics暴露Prometheus endpoint，监控inference_latency_seconds
为什么：必须区分模型计算时间和IO等待时间。用prometheus_client.Histogram，buckets设为[0.01, 0.025, 0.05, 0.1, 0.2, 0.5]。
后果：无细粒度指标，只能看到“慢”，不知是模型还是网络慢。

3.3 特征服务层：让数据流动起来

动作：Redis在线存储，Key命名强制{project}:{entity_type}:{entity_id}:{feature_name}
为什么：{}是Redis哈希标签，确保同一实体的所有特征落在同一分片，避免跨分片查询。
后果：未用哈希标签，user_id=123的10个特征分散在5个节点，一次查询需5次网络往返，P99飙升至200ms。
动作：特征读取加circuit breaker（熔断器）
为什么：当Redis集群故障，避免线程池被占满。用pybreaker库，fail_max=5, reset_timeout=60。熔断后返回默认值。
后果：未熔断，Redis超时阻塞线程，服务雪崩。
动作：离线特征生成任务，必须写data_quality_report.html
为什么：报告含缺失率、分布偏移（KS检验）、与上周期对比。用Great Expectations生成，自动邮件发送给Owner。
后果：某次特征ETL bug，user_last_7d_order_count全为0，未被发现，模型效果归零。
动作：特征服务gRPC接口，timeout=0.3秒硬限制
为什么：上游服务（如编排层）超时设为300ms，特征服务必须更短，留出网络开销。
后果：未设限，特征服务卡住10秒，拖垮整个链路。
动作：特征Schema变更，必须双写+双读过渡期
为什么：如新增user_is_premium字段，先双写（写新旧两个key），再双读（读新key，fallback旧key），最后清理旧key。
后果：单步变更，旧模型读新Schema报错。

3.4 编排与监控：让一切可见、可控、可回滚

动作：编排服务用retrying库，对特征服务gRPC调用重试3次
为什么：网络抖动常见，单次失败不应失败整个请求。重试间隔exponential backoff，首次100ms。
后果：无重试，瞬时网络抖动导致10%请求失败。
动作：所有服务Docker镜像，LABEL打上git_commit,build_time,model_version
为什么：故障时，docker inspect一眼可知哪个commit上线。
后果：无label，回滚时不确定哪个镜像是“好”的。
动作：K8s Deployment配置maxSurge=1, maxUnavailable=0
为什么：滚动更新时，保证始终有1个Pod在线，零宕机。
后果：maxUnavailable=1，更新中Pod数为0，服务中断。
动作：Prometheus告警规则，ALERT ModelLatencyHigh，条件rate(inference_latency_seconds_sum[5m]) / rate(inference_latency_seconds_count[5m]) > 0.15
为什么：监控平均延迟无意义，P99才是用户体验。但Prometheus无原生P99函数，用histogram_quantile(0.99, rate(inference_latency_seconds_bucket[5m])) > 0.15。
后果：用平均延迟，P99到300ms仍不告警。
动作：日志中记录trace_id，用opentelemetry注入
为什么：跨服务追踪，定位慢请求在哪一层。trace_id随HTTP headerX-Trace-ID传递。
后果：无trace_id，10个服务的日志无法关联，故障定位如大海捞针。
动作：模型服务健康检查，必须包含feature_service_health探针
为什么：模型服务正常，但特征服务挂了，整个服务就废了。探针应调用特征服务Check接口。
后果：未检查，特征服务宕机，模型服务仍显示healthy，流量全损。
动作：CI流水线中，make test前先make lint（用ruff）和make format（用black）
为什么：代码风格统一，减少Code Review摩擦。ruff比pylint快10倍，适合CI。
后果：风格混乱，Review聚焦空格而非逻辑，效率低下。
动作：每次发布，自动生成CHANGELOG.md，含model changes,infra changes,breaking changes
为什么：新人接手时，5分钟了解本次发布影响。用conventional commits规范提交信息，standard-version生成。
后果：无changelog，回滚时不知哪个变更引入bug。

注意：这23个动作，我要求团队在SOP文档中逐条check，新成员onboard必须亲手执行一遍。少做一条，就埋下一个线上事故的种子。

4. 实操全流程：以电商实时风控模型为例的端到端复现

现在，让我们把前面所有原则，放进一个真实场景：电商实时风控模型。目标：在用户下单支付瞬间（<200ms），判断订单是否欺诈。模型是XGBoost，特征来自用户行为日志（Kafka）、用户画像（Redis）、商品库（MySQL）。以下是完整流程，含所有命令、配置、参数计算。

4.1 环境准备：搭建可复现的本地沙箱

我们不用“我的电脑”，而用Docker Compose定义整个本地环境，确保开发、测试、生产环境一致。

# docker-compose.yml version: '3.8' services: redis: image: redis:7.2-alpine ports: ["6379:6379"] command: ["redis-server", "--appendonly", "yes"] mysql: image: mysql:8.0 environment: MYSQL_ROOT_PASSWORD: root MYSQL_DATABASE: ecommerce ports: ["3306:3306"] volumes: - ./sql/init.sql:/docker-entrypoint-initdb.d/init.sql kafka: image: bitnami/kafka:3.5.1 ports: ["9092:9092"] environment: KAFKA_CFG_LISTENERS: PLAINTEXT://:9092 KAFKA_CFG_ADVERTISED_LISTENERS: PLAINTEXT://localhost:9092 KAFKA_CFG_LISTENER_SECURITY_PROTOCOL_MAP: PLAINTEXT:PLAINTEXT model-service: build: ./model-service ports: ["8000:8000"] depends_on: [redis, mysql, kafka] environment: REDIS_URL: redis://redis:6379 MYSQL_URL: mysql+pymysql://root:root@mysql:3306/ecommerce KAFKA_BOOTSTRAP_SERVERS: kafka:9092

关键点：

所有服务用固定tag（redis:7.2-alpine），避免latest漂移。
MySQL初始化SQL（init.sql）预置测试数据：INSERT INTO users VALUES (123, '2023-01-01', 'premium');。
Kafka广告地址设为localhost:9092，因宿主机访问容器需此配置。

启动命令：docker-compose up -d --build。5秒后，所有服务就绪。这是Part 4的第一道防线：环境不可变。

4.2 模型训练与打包：从Notebook到Artifact

在Jupyter中，我们训练好模型，保存为model.pkl。但Part 4要求，训练代码必须脱离Notebook。我们创建train.py：

# train.py import pandas as pd import xgboost as xgb from sklearn.model_selection import train_test_split from joblib import dump # 1. 数据加载（模拟） df = pd.read_parquet("data/train.parquet") # 真实场景从S3读 X = df[["user_age", "user_order_count", "item_price"]] y = df["is_fraud"] # 2. 训练 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) model = xgb.XGBClassifier(n_estimators=100) model.fit(X_train, y_train) # 3. 评估 y_pred = model.predict(X_test) print(f"AUC: {roc_auc_score(y_test, y_pred)}") # 4. 保存（关键！） dump(model, "model.pkl") # 5. 生成benchmark（关键！） import time import numpy as np dummy_input = np.array([[25, 3, 99.9]]) start = time.time() for _ in range(1000): model.predict(dummy_input) end = time.time() latency_ms = (end - start) * 1000 / 1000 with open("benchmark.json", "w") as f: json.dump({"inference_time_ms_p50": latency_ms, "memory_mb": 1240}, f)

打包命令（在model-service目录）：

# 创建模型包 tar -czf model-v1.2.0.tar.gz model.pkl benchmark.json requirements.txt # 验证包内容 tar -tzf model-v1.2.0.tar.gz # 输出：model.pkl benchmark.json requirements.txt

参数计算：为什么n_estimators=100？因为我们在验证集上测试了50/100/200，100时AUC提升趋缓（0.923→0.924），但推理延迟从78ms→112ms，选择性价比拐点。这是Part 4的典型权衡：不追求理论最优，而追求业务可接受的帕累托最优。

4.3 推理服务开发：FastAPI + gRPC双协议

model-service/main.py核心代码：

from fastapi import FastAPI, HTTPException, Depends from pydantic import BaseModel import joblib import numpy as np from prometheus_fastapi_instrumentator import Instrumentator import time # 加载模型（启动时） model = joblib.load("model.pkl") class PredictRequest(BaseModel): user_age: int user_order_count: int item_price: float app = FastAPI() # Prometheus监控 Instrumentator().instrument(app).expose(app) @app.post("/predict") async def predict(request: PredictRequest): # 输入校验（Pydantic自动完成） # 转为numpy array X = np.array([[request.user_age, request.user_order_count, request.item_price]]) # 记录延迟 start = time.time() try: pred = model.predict(X)[0] score = model.predict_proba(X)[0][1] latency = time.time() - start # 上报Prometheus from prometheus_client import Histogram HISTOGRAM = Histogram('inference_latency_seconds', 'Model inference latency', buckets=[0.01,0.025,0.05,0.1,0.2,0.5]) HISTOGRAM.observe(latency) return {"score": float(score), "class": "fraud" if pred == 1 else "normal"} except Exception as e: raise HTTPException(status_code=500, detail=f"Model error: {str(e)}") # Health check @app.get("/health") def health(): return {"status": "ok", "model_version": "v1.2.0"}

Dockerfile：

FROM python:3.9-slim WORKDIR /app COPY requirements.txt . RUN pip install --no-cache-dir -r requirements.txt COPY model-v1.2.0.tar.gz . RUN tar -xzf model-v1.2.0.tar.gz COPY main.py . EXPOSE 8000 CMD ["uvicorn", "main:app", "--host", "0.0.0.0:8000", "--port", "8000", "--workers", "4"]

构建并测试：

docker build -t model-service:v1.2.0 . docker run -p 8000:8000 --network ecommerce_default model-service:v1.2.0 curl -X POST http://localhost:8000/predict -H "Content-Type: application/json" -d '{"user_age":25,"user_order_count":3,"item_price":99.9}' # 返回：{"score": 0.872, "class": "fraud"}

4.4 特征服务对接：Feast + Redis在线存储

我们用Feast定义特征仓库。feature_repo/feature_view.py：

from feast import FeatureView, Entity, Field, ValueType from feast.types import Float32, Int64 from datetime import timedelta # 定义实体 user = Entity(name="user_id", join_keys=["user_id"]) # 定义特征视图 user_features = FeatureView( name="user_features", entities=[user], ttl=timedelta(hours=1), schema=[ Field(name="user_age", dtype=Int64), Field(name="user_order_count", dtype=Int64), ], online=True, source=user_batch_source, # 离线源 )

启动Feast在线服务：

feast materialize-incremental '2023-10-05T00:00:00' # 将离线特征写入Redis feast serve # 启动gRPC服务，默认端口6565

编排服务（Go）调用特征服务：

// main.go conn, _ := grpc.Dial("feature-service:6565", grpc.WithInsecure()) client := pb.NewFeatureStoreClient(conn) resp, _ := client.GetOnlineFeatures(ctx, &pb.GetOnlineFeaturesRequest{ Features: []string{"user_features:user_age", "user_features:user_order_count"}, EntityRows: []*pb.EntityRow{{ Fields: map[string]*pb.Value{ "user_id": {Kind: &pb.Value_Int64Val{Int64Val: 123}}, }, }}, }) // resp.Results[0].Fields["user_age"].GetInt64Val() // 获取特征值

4.5 监控与告警：用Prometheus+Grafana看真实世界

prometheus.yml配置抓取模型服务：

scrape_configs: - job_name: 'model-service' static_configs: - targets: ['model-service:8000']

Grafana面板关键指标：

P99延迟热力图：X轴时间，Y轴服务实例，颜色深浅表示延迟。一眼看出哪个Pod异常。
特征服务错误率：rate(feast_feature_retrieval_errors_total[5m])，阈值>0.1%告警。
模型输出分布：直方图显示score分布，若突然右移（高分变多），可能数据漂移。

告警规则alerts.yml：

- alert: ModelLatencyHigh expr: histogram_quantile(0.99, rate(inference_latency_seconds_bucket[5m])) > 0.15 for: 5m labels: severity: critical annotations: summary: "Model latency P99 > 150ms" description: "Current P99: {{ $value }}s" - alert: FeatureServiceDown expr: count(up{job="feature-service"}) == 0 for: 1m labels: severity: critical

部署后，用curl -X POST http://localhost:9093/alertmanager/api/v2/alerts触发告警测试，确认邮件/钉钉通知可达。

4.6 影子验证实战：捕获模型静默退化

我们部署影子服务（Shadow Service），它不参与决策，只记录：

# shadow_service.py from fastapi import FastAPI import requests import json app = FastAPI() @app.post("/shadow_predict") async def shadow_predict(request: PredictRequest): # 1. 调用主服务（真实决策） main_resp = requests.post("http://main-service:8000/predict", json=request.dict()) # 2. 调用新模型服务（影子） shadow_resp = requests.post("http://new-model-service:8001/predict", json=request.dict()) # 3. 计算差异 diff = abs(main_resp.json()["score"] - shadow_resp.json()["score"]) # 4. 记录到日志（含trace_id） logger.info("shadow_compare", main_score=main_resp.json()["score"], shadow_score=shadow_resp.json()["score"], diff=diff, trace_id=request.headers.get("X-Trace-ID")) return main_resp.json() # 返回主服务结果

用Kibana分析日志，设置看板：