当前位置：首页 > news >正文

Azure Blob Storage 生产实战：稳用、安用、省用三大核心原则

news 2026/6/4 0:39:35

1. 项目概述：这不是一个“云存储教程”，而是一份我在生产环境里踩过坑、调过参、熬过夜后整理出来的 Blob Storage 实战手记

Azure Blob Storage 看似只是个“放文件的网盘”，但真把它接入业务系统、扛住日均百万级请求、应对审计合规要求、控制每月账单不超预算时，你才会发现——它根本不是点点鼠标就能跑通的玩具。我带过三个不同规模的团队落地 Blob Storage：一个做医疗影像归档的 SaaS 项目，一个为千万级用户 App 提供头像与短视频分发的 CDN 后端，还有一个是金融行业核心系统的冷数据归档模块。这三个场景，让我彻底告别了“照着文档走通流程”的新手思维，转而建立起一套围绕数据生命周期、访问模式、安全边界和成本水位线的实操判断体系。

这篇内容，就是我把这三年里所有关键决策点、配置陷阱、监控盲区和成本优化动作，全部拆解出来的真实复盘。它不讲“什么是 Blob”，不罗列 Azure 官方定义，而是直接告诉你：

为什么在创建存储账户时，LRS 和 GRS 的选择不是“安全级别高低”，而是“RTO/RPO 能力与业务中断容忍度”的对齐；
为什么给容器设成Blob级匿名访问，看似方便前端直传，却可能在某次渗透测试中被判定为高危漏洞；
为什么你用 CLI 上传 2GB 视频总失败，不是网络问题，而是默认的az storage blob upload命令压根没启用分块上传（--max-connections和--chunk-size参数必须显式调）；
为什么开了软删除，却在误删后发现恢复不了——因为你的脚本用的是az storage blob delete，而软删除只对az storage blob delete-batch或 Portal 操作生效，CLI 默认走的是硬删路径；
为什么你设置了“30天后转 Cool 层”的生命周期策略，但一个月后账单里 Hot 层费用纹丝不动——因为你没注意到策略只对新写入的 blob 生效，存量数据不会自动迁移，必须手动触发az storage blob set-tier。

关键词里虽然写着 “None”，但整篇内容锚定的就是四个真实痛点：上传稳定性、权限最小化、生命周期可执行、成本可预测。适合三类人：刚考完 AZ-900 想进阶的工程师、正在选型云存储的架构师、以及每天盯着 Azure 成本管理器发愁的运维负责人。接下来的内容，没有一句虚话，全是我在控制台里敲过的命令、在 Grafana 里盯过的曲线、在工单里写过的 root cause 分析。

2. 整体设计思路：从“能用”到“稳用”再到“省用”的三层演进逻辑

很多团队第一次接触 Blob Storage，目标很朴素：把文件存上去，再让前端能读出来。于是快速走通 Portal 创建账户 → 新建容器 → 上传文件 → 复制 URL 测试访问，全程 15 分钟搞定。这叫“能用”。但上线三天后，问题开始冒头：用户上传大文件频繁超时、CDN 回源命中率暴跌、某次安全扫描报出“容器匿名可列目录”、月度账单比预估高出 40%……这时候，“能用”就变成了“不敢用”。

我的设计思路，是把整个 Blob Storage 的落地过程，拆成三个递进阶段，每个阶段解决一类根本性问题：

2.1 第一阶段：“稳用”——构建抗压、容错、可观测的数据管道

这不是单纯选个“标准性能层”或点开“启用日志”就能解决的。它需要你提前预判数据流的瓶颈点：

上传侧：Web 前端直传 vs 后端代理上传？前者省服务器带宽但需处理 STS 临时凭证和签名，后者可控但增加服务链路；
存储侧：Hot 层 SSD 的 IOPS 是有限的，单个存储账户理论最大吞吐 20Gbps，但实际受 blob 数量、大小分布、并发连接数影响极大。我们曾因未做前缀散列，所有用户头像都以avatar_123456.jpg形式写入，导致热点分区打满，整体写入延迟飙升至 8s+；
下载侧：公网直连 vs CDN 回源？CDN 虽能降延迟，但会带来额外 egress 流量费，且缓存失效策略若没配好，用户可能看到旧头像；
可观测性：Metrics 里的Transactions指标必须按ApiName维度拆解，否则你永远不知道是PutBlob还是GetBlob在拖慢整体 P95 延迟。

这个阶段的核心原则是：所有配置必须有基线数据支撑，所有链路必须有熔断兜底，所有异常必须有可追溯日志。比如，我们为医疗影像系统设定的 SLA 是“99.9% 的 10MB 以内 DICOM 文件上传耗时 < 3s”，这就倒逼我们在存储账户创建时必须选 ZRS（避免单可用区故障），在应用层必须实现分块上传 + 断点续传 + 重试退避（指数退避，初始 100ms，最大 5s），在监控上必须埋点记录每次上传的BlockCount、TotalTime、RetryCount。

2.2 第二阶段：“安用”——用权限模型替代“一把钥匙开所有门”

新手最容易犯的错，就是把 Account Key 当作万能口令，后端服务、CI/CD 脚本、甚至前端 JS 里都明文塞进去。这等于把保险柜密码贴在柜子上。真正的权限设计，是遵循“最小权限+动态凭证+分层隔离”三原则：

最小权限：绝不给Storage Account Contributor这种顶层角色，而是按需授予Storage Blob Data Reader/Contributor/Owner到具体容器级；
动态凭证：后端服务用 Managed Identity（系统分配），前端直传用 SAS Token（限时、限 IP、限操作），CI/CD 用 Service Principal + Client Secret（轮换周期 ≤ 90 天）；
分层隔离：prod-images、prod-backups、staging-logs必须分属不同存储账户，而非同一账户下不同容器——因为 RBAC 粒度无法细到“禁止某角色删除 backup 容器里的 blob”，只能靠物理隔离杜绝误操作。

这里有个血泪教训：我们曾给一个数据分析组开通Storage Blob Data Contributor权限到prod-images容器，本意是让他们读取图片元数据。结果某次脚本 bug 导致批量执行了az storage blob delete --recursive，瞬间清空了线上 2TB 用户头像。事后复盘，权限本该限定为Reader，且应通过 Private Endpoint + NSG 规则锁死仅允许分析集群 VNet 访问，而不是放行全网。

2.3 第三阶段：“省用”——让每一分钱都花在刀刃上，而非为闲置数据买单

Blob Storage 的成本陷阱，90% 出现在“看不见的地方”：

无效数据沉淀：App 用户注销后，其上传的 500 张历史照片仍躺在 Hot 层，按 $0.018/GB/月计费，10 万用户就是 $1800/月纯浪费；
错误的访问层级：监控显示某backup-logs容器 99.7% 的请求发生在凌晨 2-4 点（备份窗口），其余时间零访问，却长期放在 Hot 层；
隐性 egress 成本：CDN 回源流量免费，但 CDN 缓存未命中时，终端用户直接回源产生的公网 egress，费用是回源的 3 倍以上；
冗余过度：金融客户要求 RPO=0，我们配了 GRS，但实际业务 RTO 只要求 15 分钟，ZRS 完全够用，每年多付 37% 存储费。

因此，“省用”的核心不是砍预算，而是建立数据价值评估模型：对每个容器，定期跑脚本统计LastModified时间分布、AccessTier使用率、EgressBytes占比，并结合业务 SLA，动态调整生命周期策略。我们自研了一个小工具，每周自动扫描所有容器，生成《Blob 存储健康度报告》，包含“可降级 blob 数量”、“建议转 Archive 的冷数据占比”、“高 egress 风险容器清单”三项 actionable 指标，直接驱动运维动作。

这三层演进，不是线性时间轴，而是持续迭代的飞轮。每一次线上事故，都在推动我们向更稳、更安、更省的方向加固。下面，我们就从最基础的账户创建开始，一层层拆解每个操作背后的“为什么”。

3. 核心细节解析：那些文档里不会写的配置真相与参数逻辑

创建一个存储账户，看起来只是填几个表单项，但每个选项背后，都关联着后续数月的稳定性、安全性和成本。我来逐项还原真实决策现场。

3.1 存储账户创建：性能、冗余、区域，三者如何权衡？

性能层级（Performance）

Standard：基于 HDD/SSD 混合阵列，99.9% 场景够用。它的吞吐能力不是固定值，而是随 blob 数量线性增长（单账户理论峰值 20Gbps，但需满足“blob 数 > 10 万”且“大小均匀分布”）。我们压测发现，当容器内 blob 数低于 5000 时，实际写入吞吐卡在 1.2Gbps，远低于理论值。
Premium：纯 SSD，低延迟（P99 < 10ms），但价格是 Standard 的 3-5 倍，且不支持 Cool/Archive 层、不支持静态网站托管、不支持生命周期管理。除非你的业务是高频交易日志实时分析（要求毫秒级写入确认），否则别碰。我们曾为一个实时风控系统误选 Premium，结果发现无法设置自动归档，最终不得不重建账户。

冗余选项（Redundancy）
这不是“越贵越安全”的简单题，而是 RTO/RPO 的工程取舍：

LRS（本地冗余）：同一数据中心内 3 副本。成本最低，但单点故障（如机柜断电、光纤被挖断）即全挂。适用于开发测试、非关键日志。
ZRS（区域冗余）：同一地理区域内 3 个物理隔离可用区（AZ）各存 1 副本。RPO=0，RTO<15 分钟。这是我们生产环境的默认选择，平衡了成本与可用性。注意：ZRS 要求区域必须支持（如East US支持，Southeast Asia不支持），创建前务必查 Azure 区域服务可用性表。
GRS（异地冗余）：主区域 + 配对区域（如East US↔West US）各存 3 副本。RPO≈0，RTO 可达小时级。适用于金融、政务等强合规场景。但代价是：1）存储费 +25%；2）跨区域复制有延迟（通常 < 15 分钟）；3）配对区域不可手动选择，由 Azure 内部映射决定，你无法指定备份到东京而非法兰克福。

提示：不要迷信“配对区域”概念。Azure 的 GRS 配对是固定的（如East US配对West US），且配对关系可能随 Azure 全球基础设施演进而调整。如果你的业务明确要求数据不出中国，必须选China East 2+China North 2这样的本土配对，而非依赖全球 GRS。

区域（Region）选择
原则是：离你的主要用户或计算资源最近。但有两个隐藏坑：

East US区域的网络出口带宽是West US的 2.3 倍，这意味着同样配置下，前者 egress 成本更低、延迟更稳；
某些区域（如UK South）的 Blob Storage SLA 是 99.9%，而East US是 99.99%。SLA 差 0.09%，意味着年宕机时间从 8.76 小时降到 0.876 小时——对 7x24 服务至关重要。

3.2 容器权限设计：`Private`、`Blob`、`Container`三种模式的真实代价

容器的公共访问级别，是安全防线的第一道闸门。很多人图省事选Blob，以为“只能读不能列目录”就很安全，但现实远比这复杂：

访问级别	允许的操作	真实风险案例	我们的对策
`Private`	仅授权凭据（Key/SAS/MI）可访问	无	生产环境唯一推荐。所有前端直传必须通过后端签发 SAS Token，Token 有效期 ≤ 15 分钟，且绑定 IP 和协议（HTTPS only）。
`Blob`	匿名 GET blob（需完整 URL）	攻击者用爬虫暴力猜 URL（如`https://acc.blob.core.windows.net/container/1.jpg`,`2.jpg`...），批量下载敏感图片	我们禁用此模式。若必须开放（如公开活动海报），则： 1）新建专用容器`public-assets`； 2）URL 加哈希后缀（`poster_abc123.jpg`）； 3）配 WAF 规则拦截高频 IP 请求。
`Container`	匿名 GET + LIST（可枚举所有 blob 名）	安全扫描直接报“高危：容器可遍历”，客户审计不通过	绝对禁用。曾有客户因此否决整个云方案。

注意：Portal 界面里“Allow enabling anonymous access on individual containers”这个全局开关，必须关闭。它只是个“允许你后续在容器级开启”的许可，并非实际开启。开着它等于留了个后门，某天新人误点容器设置就全暴露了。

3.3 生命周期管理：为什么你的策略“写了却没生效”？

生命周期规则（Lifecycle Management）是省钱利器，但默认配置极易失效。关键参数解析：

{ "rules": [ { "name": "move-to-cool-after-30d", "enabled": true, "type": "Lifecycle", "definition": { "actions": { "baseBlob": { "tierToCool": { "daysAfterModificationGreaterThan": 30 } } }, "filters": { "prefixMatch": ["logs/", "backups/"], "blobTypes": ["blockBlob"] } } } ] }

daysAfterModificationGreaterThan:不是“创建后30天”，而是“最后修改时间距今超过30天”。这对日志类数据很准，但对用户上传的图片/视频，如果用户从未修改，此条件永不触发。解决方案：对用户生成内容，改用daysAfterCreationGreaterThan（需 API 版本 2020-08-04+）。
prefixMatch: 必须精确匹配容器内路径前缀。"logs/"能匹配logs/app-2023-10-01.txt，但匹配不了logs/2023/10/01/app.txt（因为中间有/）。多级目录需写全：["logs/2023/", "logs/2024/"]。
blobTypes:blockBlob是常规文件，appendBlob是日志追加流，pageBlob是 Azure VM 磁盘，三者策略必须分开定义。混用会导致规则静默失败。

最致命的坑：生命周期策略只对新写入的 blob 生效！已存在的 blob 不会自动迁移。我们曾设好策略，等一个月后看账单，Hot 层费用纹丝不动。执行az storage blob list --account-name xxx --container-name yyy --query "[?properties.accessTier=='Hot'] | length(@)"，发现 99% 的 blob 仍是 Hot。解决方法：

手动触发迁移：az storage blob set-tier --account-name xxx --container-name yyy --name "old-file.jpg" --tier Cool；
对存量数据批量操作：用az storage blob list导出所有 blob 名，循环调用set-tier；
一劳永逸：在应用层上传逻辑里，强制指定--tier Cool（对日志/备份类数据）。

4. 实操过程详解：从创建到监控，每一步都附带真实命令与避坑注释

下面是以一个真实电商后台为背景的完整实操链路。所有命令均在 Azure Cloud Shell（Bash）中验证通过，参数值已脱敏，但结构完全一致。

4.1 创建生产级存储账户（含 ZRS 与私有终结点）

# Step 1: 创建资源组（按业务域隔离） az group create --name rg-ecom-prod-storage --location "East US" --tags "Environment=Production" "Team=Ecommerce" # Step 2: 创建存储账户（ZRS + HTTPS ONLY + 禁用匿名访问） az storage account create \ --name stecommprod001 \ --resource-group rg-ecom-prod-storage \ --location "East US" \ --sku Standard_LRS \ # 注意：ZRS 的 SKU 是 Standard_ZRS，不是 Standard_LRS！ --kind StorageV2 \ --hierarchical-namespace false \ --https-only true \ --allow-blob-public-access false \ # 关键！禁用全局匿名访问 --min-tls-version TLS1_2 \ --tags "Project=Ecom" "Owner=Storage-Team" # Step 3: 启用私有终结点（锁定 VNet 访问） # 假设已有 VNet vnet-ecom-prod 和子网 snet-storage-private az network private-endpoint create \ --name pep-stecommprod001 \ --resource-group rg-ecom-prod-storage \ --vnet-name vnet-ecom-prod \ --subnet snet-storage-private \ --private-connection-resource-id $(az storage account show -n stecommprod001 -g rg-ecom-prod-storage --query id -o tsv) \ --group-id blob \ --connection-name conn-stecommprod001-blob # Step 4: 配置 NSG 规则（仅允许应用集群 IP 段访问） az network nsg rule create \ --nsg-name nsg-storage-private \ --resource-group rg-ecom-prod-storage \ --name Allow-App-Cluster \ --priority 100 \ --source-address-prefixes "10.1.0.0/16" \ --destination-port-ranges "443" \ --access Allow \ --protocol Tcp

实操心得：--sku Standard_ZRS是启用 ZRS 的唯一方式，Portal 界面里选“区域冗余”本质就是设这个 SKU。很多人在 CLI 里漏掉--sku参数，结果创建出 LRS 账户，再想改必须重建——Azure 不支持在线升级冗余类型。

4.2 创建容器并配置 RBAC（最小权限实践）

# Step 1: 创建两个容器（分离热数据与冷数据） az storage container create \ --account-name stecommprod001 \ --name container-product-images \ --public-access off \ --auth-mode login az storage container create \ --account-name stecommprod001 \ --name container-product-backups \ --public-access off \ --auth-mode login # Step 2: 为应用服务（Managed Identity）授予权限 # 获取应用服务的 Principal ID（假设应用名为 app-ecom-web） APP_MI_ID=$(az webapp identity show -g rg-ecom-prod-web -n app-ecom-web --query principalId -o tsv) # 授予 Product Images 容器的读写权限（仅此容器） az role assignment create \ --role "Storage Blob Data Contributor" \ --assignee "$APP_MI_ID" \ --scope "/subscriptions/YOUR_SUB_ID/resourceGroups/rg-ecom-prod-storage/providers/Microsoft.Storage/storageAccounts/stecommprod001/blobServices/default/containers/container-product-images" # 授予 Backups 容器的只读权限（备份任务只需读） BACKUP_MI_ID=$(az functionapp identity show -g rg-ecom-prod-func -n func-backup-task --query principalId -o tsv) az role assignment create \ --role "Storage Blob Data Reader" \ --assignee "$BACKUP_MI_ID" \ --scope "/subscriptions/YOUR_SUB_ID/resourceGroups/rg-ecom-prod-storage/providers/Microsoft.Storage/storageAccounts/stecommprod001/blobServices/default/containers/container-product-backups"

注意：RBAC 的--scope必须精确到容器级 URI。用--scope指向整个存储账户（/storageAccounts/xxx）会授予该账户下所有容器权限，违背最小化原则。我们曾因此导致备份函数意外获得了 product-images 容器的删除权限。

4.3 上传大文件（10GB 视频）的稳定方案

Portal 上传对小文件友好，但对 >100MB 文件极不稳定。CLI 默认命令也不行：

# ❌ 错误示范：默认上传，无分块，无重试，大文件必超时 az storage blob upload \ --account-name stecommprod001 \ --container-name container-product-images \ --name "video-10gb.mp4" \ --file "/local/path/video-10gb.mp4" # ✅ 正确方案：启用分块上传 + 自定义重试 az storage blob upload \ --account-name stecommprod001 \ --container-name container-product-images \ --name "video-10gb.mp4" \ --file "/local/path/video-10gb.mp4" \ --max-connections 8 \ # 并发连接数，提升吞吐 --chunk-size 10485760 \ # 10MB/chunk，Azure 推荐 4-100MB --timeout 1800 \ # 总超时设为30分钟 --retry-times 5 \ # 重试5次 --retry-sleep 30 \ # 每次重试间隔30秒（指数退避由SDK自动处理）

底层原理：--chunk-size触发的是Put Block+Put Block List协议。Azure 将文件切分为多个 block（每个 ≤100MB），并行上传所有 block，最后用Put Block List提交 block ID 列表生成最终 blob。这比单次Put Blob上传可靠得多。我们实测，10GB 文件在 100Mbps 网络下，分块上传耗时 18 分钟，成功率 100%；单次上传平均失败 3 次，总耗时超 45 分钟。

4.4 配置生命周期策略（覆盖存量与增量）

# Step 1: 创建策略 JSON 文件 lifecycle-policy.json cat > lifecycle-policy.json << 'EOF' { "rules": [ { "name": "move-images-to-cool", "enabled": true, "type": "Lifecycle", "definition": { "actions": { "baseBlob": { "tierToCool": { "daysAfterModificationGreaterThan": 90 } } }, "filters": { "prefixMatch": ["product-images/"], "blobTypes": ["blockBlob"] } } }, { "name": "archive-backups", "enabled": true, "type": "Lifecycle", "definition": { "actions": { "baseBlob": { "tierToArchive": { "daysAfterModificationGreaterThan": 365 } } }, "filters": { "prefixMatch": ["product-backups/"], "blobTypes": ["blockBlob"] } } } ] } EOF # Step 2: 应用策略（策略立即生效，但只对新写入 blob） az storage account management-policy create \ --account-name stecommprod001 \ --resource-group rg-ecom-prod-storage \ --policy "@lifecycle-policy.json" # Step 3: 手动迁移存量数据（关键！） # 迁移所有 product-backups/ 下的 blob 到 Archive 层 az storage blob list \ --account-name stecommprod001 \ --container-name container-product-backups \ --prefix "product-backups/" \ --query "[].name" -o tsv | \ while read blob; do az storage blob set-tier \ --account-name stecommprod001 \ --container-name container-product-backups \ --name "$blob" \ --tier Archive \ --if-unmodified-since "$(date -d '1 year ago' '+%Y-%m-%dT%H:%M:%SZ')" done

提示：--if-unmodified-since参数确保只迁移“一年内未修改”的 blob，避免误操作。date命令在 Cloud Shell 中可用，Linux 本地需替换为gdate（macOS 需brew install coreutils）。

4.5 监控告警配置（聚焦真实业务指标）

Metrics 默认图表太泛，必须定制化。以下是我们在 Grafana 中配置的核心看板：

Metric Namespace	Metric Name	Aggregation	Threshold	告警逻辑	业务含义
`microsoft.storage/storageaccounts/blobServices`	`Transactions`	`Count`	`Avg > 10000`(5min)	持续5分钟每分钟事务超1万	可能遭遇爬虫或 DDoS，需检查`ApiName`维度
`microsoft.storage/storageaccounts/blobServices`	`Egress`	`Total`	`Avg > 500`(GB/day)	日均出口流量超500GB	CDN 缓存失效严重，或前端直连比例过高
`microsoft.storage/storageaccounts/blobServices`	`Capacity`	`Average`	`Avg > 90`(%)	存储使用率超90%	需扩容或清理，避免写入失败
`microsoft.storage/storageaccounts/blobServices`	`Availability`	`Average`	`Avg < 99.9`(%)	可用率低于99.9%	基础设施层异常，需 Azure 支持介入

告警配置命令（用 Azure Monitor Action Groups）：

# 创建 Action Group（邮件+短信） az monitor action-group create \ --name ag-storage-alerts \ --resource-group rg-ecom-prod-storage \ --action email storage-alerts admin@ecom.com \ --action sms storage-alerts "+1234567890" # 创建告警规则（例如：Egress 超阈值） az monitor metrics alert create \ --name alert-high-egress \ --resource-group rg-ecom-prod-storage \ --scopes "/subscriptions/YOUR_SUB_ID/resourceGroups/rg-ecom-prod-storage/providers/Microsoft.Storage/storageAccounts/stecommprod001" \ --condition "total microsoft.storage/storageaccounts/blobServices/egress >= 500" \ --window-size "PT24H" \ --evaluation-frequency "PT5M" \ --severity "2" \ --actions "/subscriptions/YOUR_SUB_ID/resourceGroups/rg-ecom-prod-storage/providers/microsoft.insights/actionGroups/ag-storage-alerts"

5. 常见问题与排查技巧实录：来自生产环境的 7 个高频故障现场

5.1 问题：上传大文件时反复报错 “The client could not finish the operation within specified timeout”

现象：CLI 上传 2GB 文件，进度条卡在 99%，最终报超时。
根因分析：

默认--timeout是 300 秒（5 分钟），但 2GB 在 50Mbps 网络下理论传输需 6 分钟；
更深层原因是：Azure SDK 的max_retries默认为 3 次，每次重试都重传整个文件，而非断点续传。

解决方案：

必加参数：--timeout 1800 --retry-times 5 --retry-sleep 30；
终极方案：改用az storage blob upload-batch（自动分块+断点续传）：

az storage blob upload-batch \ --account-name stecommprod001 \ --destination container-product-images \ --source "/local/videos/" \ --pattern "*.mp4" \ --max-connections 8 \ --if-match "*" # 强制覆盖同名文件

5.2 问题：SAS Token 生成后，前端用 URL 访问返回 “403 Server failed to authenticate the request”

现象：Portal 生成的 SAS URL，在浏览器中打开提示 403。
排查步骤：

检查 URL 中st=（start time）是否早于当前时间（UTC）；
检查se=（expiry time）是否早于当前时间（UTC）；
检查spr=https是否存在，若缺失则 HTTP 请求被拒；
检查sip=（allowed IP）是否限制了你的客户端 IP；
最关键：检查容器的公共访问级别是否为Private。SAS Token 只能用于Private容器，Blob/Container级别容器无需 Token 即可访问，SAS 无效。

修复：在 Portal 中将容器权限改为Private，重新生成 SAS。

5.3 问题：启用了软删除，但`az storage blob list --include deleted`查不到已删 blob

现象：在 Portal 中删除 blob，az storage blob list --include deleted返回空。
真相：CLI 默认使用az storage blob delete命令是硬删除，不触发软删除。软删除只对以下操作生效：

Portal 界面点击“删除”；
REST API 的Delete Blob请求（带?restype=container&comp=metadata头）；
CLI 的az storage blob delete-batch（注意是 batch）；
SDK 的DeleteIfExistsAsync()方法（.NET）或delete_blob()（Python）。

正确命令：

# ✅ 触发软删除 az storage blob delete-batch \ --account-name stecommprod001 \ --container-name container-product-images \ --pattern "old-image.jpg" # ✅ 恢复软删除的 blob az storage blob undelete \ --account-name stecommprod001 \ --container-name container-product-images \ --name "old-image.jpg"

5.4 问题：生命周期策略已启用，但`az storage blob list --query "[?properties.accessTier=='Cool']"`返回空

现象：策略运行一周，所有 blob 仍是 Hot 层。
原因：策略只对新写入的 blob 生效。存量 blob 的accessTier字段不会自动更新。

验证命令：

# 查看某 blob 的详细属性（注意 LastModified 和 AccessTier） az storage blob show \ --account-name stecommprod001 \ --container-name container-product-images \ --name "test.jpg" \ --query "{LastModified:properties.lastModified, AccessTier:properties.accessTier, Created:properties.created}" -o json

解决方案：

对存量数据，必须手动执行az storage blob set-tier；
对未来数据，在上传时直接指定--tier Cool：

az storage blob upload \ --account-name stecommprod001 \ --container-name container-product-images \ --name "new-image.jpg" \ --file "/local/new-image.jpg" \ --tier Cool

5.5 问题：CDN 回源后，用户访问图片 URL 速度很慢，但直接访问 Blob URL 很快

现象：https://cdn.example.com/image.jpg慢，https://stecommprod001.blob.core.windows.net/container/image.jpg快。
根因：CDN 缓存未命中，每次请求都回源，而回源流量走公网，延迟高、成本高。

排查与优化：

检查 CDN 缓存状态：在响应 Header 中找X-Cache: MISS（未命中）或HIT（命中）；
检查缓存规则：CDN 的缓存策略是否排除了.jpg？是否设置了Cache-Control: no-cache？
强制缓存：在上传 blob 时，添加Cache-Control元数据：

az storage blob upload \ --account-name stecommprod001 \ --container-name container-product-images \ --name "image.jpg" \ --file "/local/image.jpg" \ --content-cache-control "public, max-age=31536000" # 缓存1年