当前位置：首页 > news >正文

Azure Terraform实战：从踩坑到生产级IaC落地指南

news 2026/6/3 11:05:45

1. 这不是“又一本Terraform教程”，而是一份我在Azure上踩了27次坑后整理的实操手记

你点开这个标题，大概率正站在Azure控制台里，盯着那个蓝色的“创建资源组”按钮犹豫——是点下去手动配网络、虚拟机、存储账户，还是硬着头皮打开VS Code，把Terraform文档翻到第43页却连provider块都写不全？我太熟悉这种状态了。过去三年，我带过11个从零起步的运维和开发团队落地IaC，几乎每个团队都会在同一个地方卡住：不是语法报错，而是根本不知道该先定义什么、为什么必须这样定义、以及删错一个count参数会导致整个环境不可逆损坏。这篇指南不讲“Terraform是什么”——你搜得到；也不堆砌terraform init/plan/apply三板斧——你跑得通但不敢上线。它只聚焦一件事：当你第一次在Azure真实环境中用Terraform部署一个可运行、可维护、可审计的Web应用基础设施时，每一步背后的决策逻辑、参数取舍依据、以及那些官方文档绝不会写的“血泪备注”。核心关键词全部落在实操层：azurerm_provider版本锁定、resource_group命名规范、depends_on的真实替代方案、remote_state的最小安全配置、null_resource的合理使用边界。适合两类人：一类是刚考完AZ-104想立刻把知识变成生产力的工程师；另一类是技术负责人，需要判断团队是否真的准备好把生产环境交给代码管理。它不承诺“5分钟上手”，但保证你读完第3节就能独立写出第一个通过CI流水线验证的模块。

2. 整体设计思路：为什么我们放弃“教语法”，选择“建场景”

2.1 不是“从零开始学Terraform”，而是“从生产问题倒推架构”

很多初学者教程失败的根本原因，在于把Terraform当成一门编程语言来教。但现实是：你在Azure上遇到的第一个问题，从来不是for_each怎么写，而是“客户要求明天上线新环境，但当前手工部署要8小时，且每次都有配置漂移”。所以本指南的设计起点，是一个真实的、被反复验证过的最小可行场景：部署一个高可用Web应用栈，包含：1个资源组、1个虚拟网络（含子网）、1个公共IP、1个负载均衡器、2台Linux虚拟机（加入可用性集）、1个存储账户（用于诊断日志）。这个场景看似简单，却覆盖了Azure IaC的90%高频痛点：网络依赖链、资源生命周期管理、跨资源引用、状态同步、以及最关键的——如何让terraform destroy真正安全。我们刻意避开容器服务（AKS）、无服务器（Function App）等高级组件，因为它们会掩盖底层网络和身份权限的本质问题。当你能用Terraform干净地创建并销毁这个基础栈，再叠加Kubernetes就只是加几个模块的事。

2.2 为什么坚持用`azurerm`而非`azuread`或`random`作为入门核心

初学者常陷入一个误区：看到random_string可以生成密码，就以为这是“最佳实践”。但真实生产环境里，密码管理从来不是靠随机字符串，而是靠Azure Key Vault集成。所以本指南中所有敏感值（如VM管理员密码、SQL连接字符串）都明确标注为“占位符”，并在第4节专门拆解Key Vault的接入方式。同理，azuread提供程序常被用来创建服务主体，但新手极易混淆“谁在调用API”（Terraform执行者）和“谁被授权访问资源”（服务主体）。我们直接采用最稳妥的方案：使用已有的Azure AD应用注册+证书认证，并在azurermprovider中配置client_certificate_path。这样做的好处是：避免在代码中硬编码client_secret，且证书可由企业PKI统一管理。至于null_resource，它确实能执行shell命令，但我们严格限制其使用场景——仅用于在VM启动后注入初始配置（如安装Docker），绝不允许用它来“绕过Terraform资源模型”去配置网络规则或存储策略。因为每一次绕过，都在为未来的terraform plan不可预测性埋雷。

2.3 版本锁定：不是教条主义，而是Azure API演进的生存法则

Azure Resource Manager（ARM）API每季度发布新版本，而azurermprovider的每个大版本（如3.x → 4.x）都对应着对ARM API的重大适配。我见过太多团队因未锁定provider版本，在terraform init时自动升级到4.0，结果发现azurerm_virtual_machine的storage_os_disk参数结构彻底重构，导致所有现有代码编译失败。因此，本指南所有示例代码强制要求：

terraform { required_providers { azurerm = { source = "hashicorp/azurerm" version = "= 3.105.0" // 锁定到具体小版本，非 "~> 3.0" } } }

为什么是=而非~>？因为~>允许补丁升级（如3.105.0 → 3.105.1），而Azure偶尔会在补丁版本中引入破坏性变更（例如修复一个安全漏洞的同时，废弃某个已弃用的属性）。锁定到精确版本，意味着你每次升级前必须手动验证变更日志。这看似繁琐，但比凌晨三点排查terraform plan突然多出20个销毁操作要高效得多。顺便说一句：3.105.0是截至2024年Q2最稳定的LTS版本，它完整支持Azure Well-Architected Framework推荐的所有网络安全组（NSG）规则粒度，且与Azure Policy的deployIfNotExists模式兼容性最佳。

3. 核心细节解析：从命名规范到依赖陷阱，每一个字符都有它的战场

3.1 资源组（Resource Group）：不只是容器，更是权限与成本的物理边界

新手常把资源组当成“文件夹”，随意命名如my-first-rg或prod-env。但在Azure生产环境中，资源组名是RBAC策略、成本中心标签、备份保留策略的锚点。我们强制采用四段式命名法：<env>-<team>-<app>-<region>，例如prod-devops-webapp-eastus。其中：

<env>必须是dev/staging/prod之一，禁止test或demo，因为Azure Policy无法对模糊环境名做差异化管控；
<team>对应实际负责团队（如devops、data），便于后续分配Contributor角色；
<app>是应用系统缩写（如webapp、api），避免用vm或db这类基础设施术语；
<region>使用Azure官方区域代码（eastus而非East US），确保与CLI、PowerShell脚本完全一致。

更关键的是：资源组本身必须作为独立模块管理，而非嵌套在其他资源中。常见错误写法：

// ❌ 危险！资源组生命周期被绑定到VM模块 module "vm" { source = "./modules/vm" resource_group_name = "rg-${var.env}-${var.app}" }

正确做法是：

// ✅ 资源组先行，且单独定义 resource "azurerm_resource_group" "main" { name = "${var.env}-${var.team}-${var.app}-${var.region}" location = var.location tags = { Environment = var.env Team = var.team } } // VM模块通过变量接收资源组ID module "vm" { source = "./modules/vm" resource_group_id = azurerm_resource_group.main.id // 传ID，非name }

为什么传id而非name？因为name可能被手动修改，而id是全局唯一且不可变的。当terraform apply执行时，Terraform会校验resource_group_id指向的资源是否存在，若不存在则报错终止，避免静默创建错误资源组。

3.2 网络依赖链：`depends_on`是最后手段，`implicit dependency`才是日常

Azure网络组件间存在强依赖：子网必须属于虚拟网络，网络安全组必须关联到子网，公共IP必须绑定到负载均衡器前端IP配置。新手常滥用depends_on：

// ❌ 反模式：显式声明所有依赖，增加维护成本 resource "azurerm_virtual_network" "vnet" { ... } resource "azurerm_subnet" "subnet" { depends_on = [azurerm_virtual_network.vnet] // 多余！Terraform自动推导 virtual_network_name = azurerm_virtual_network.vnet.name }

Terraform的隐式依赖（implicit dependency）机制会自动识别virtual_network_name参数引用了azurerm_virtual_network.vnet.name，从而构建正确的执行顺序。depends_on只应在两种情况下使用：

跨模块依赖：当模块A输出的值被模块B用作count或for_each的输入时，Terraform无法自动推导（因其发生在模块实例化阶段之前）；
打破循环依赖：例如VM需要NSG ID，而NSG规则需要引用VM的私有IP（此时需用null_resource配合local-exec获取IP，再用depends_on确保NSG在VM创建后才更新）。

真正的网络设计难点在于子网划分策略。我们坚持“功能子网”而非“层级子网”：不按web/app/db分三层，而是按流量走向分：frontend-subnet（承载LB和公网入口）、backend-subnet（VM集群）、management-subnet（跳转机和监控代理）。每个子网CIDR必须预留25%冗余空间——不是为了未来扩容，而是因为Azure会为每个子网预留前4个和最后一个IP地址（如10.0.1.0/24中，10.0.1.0至10.0.1.3及10.0.1.255不可用）。若不预留，当VM数量接近251时，terraform apply会因IP耗尽而失败，且错误信息极其晦涩（Error: creating Network Interface: StatusCode=400）。

3.3 虚拟机（VM）配置：`os_profile_linux_config`里的密码陷阱

Azure VM的Linux配置中，admin_password参数看似简单，实则暗藏杀机。官方文档建议使用admin_ssh_key，但很多团队因历史原因仍依赖密码登录。问题在于：Azure要求密码必须满足复杂度策略（至少8位，含大小写字母、数字、符号），而Terraform若生成不符合策略的密码，apply会静默失败并回滚。更糟的是，错误日志只显示ProvisioningState: Failed，不提示具体原因。解决方案是：

永远不要在代码中生成密码——使用random_password时，必须设置min_lower/min_upper/min_numeric/min_special；
生产环境必须禁用密码登录——通过disable_password_authentication = true强制SSH密钥认证；
密钥对必须由外部生成并注入——避免tls_private_key资源，因其私钥会明文存入state文件。

正确姿势：

// ✅ 安全的SSH密钥注入 resource "azurerm_linux_virtual_machine" "vm" { # ... 其他参数 os_profile_linux_config { disable_password_authentication = true ssh_keys { key_data = file("${path.module}/files/id_rsa.pub") // 从本地读取公钥 path = "/home/${var.admin_username}/.ssh/authorized_keys" } } }

注意file()函数读取的是公钥（.pub），私钥由运维人员本地保管。path.module确保路径相对于当前模块，避免因工作目录切换导致读取失败。

3.4 远程状态（Remote State）：不是选配，而是生产环境的呼吸阀

把state文件存在本地terraform.tfstate，等于把整个环境的“DNA”锁在个人电脑里。当多人协作时，terraform apply会因state文件锁冲突而阻塞；当CI流水线执行时，每次构建都是全新环境，state丢失导致destroy所有资源。我们强制使用Azure Storage Account作为远程后端，但配置远比文档复杂：

terraform { backend "azurerm" { resource_group_name = "tfstate-rg" storage_account_name = "tfstatestorage001" container_name = "tfstate" key = "prod-webapp.tfstate" # 关键：启用访问密钥轮换 use_azuread_auth = false // 改用托管标识 } }

为什么use_azuread_auth = false？因为Azure AD认证需配置client_id/client_secret，而这些凭据同样面临轮换和泄露风险。正确方案是：在CI流水线运行的VM上启用系统分配的托管标识（Managed Identity），并授予其对Storage Account的Storage Blob Data Contributor角色。这样，Terraform无需任何凭据即可读写state文件，且密钥轮换由Azure自动完成。此外，key参数必须包含环境前缀（如prod-），避免不同环境state文件互相覆盖。我们还额外添加一个tfstate-lock容器，用于存放state锁文件（terraform.tfstate.lock.info），确保并发操作时的原子性。

4. 实操过程：从初始化到CI集成，每一步都附带真实终端日志

4.1 初始化：`terraform init`背后的三次握手

执行terraform init时，你以为只是下载provider？其实它完成了三次关键握手：

与Terraform Registry握手：校验required_providers中指定的azurerm版本是否存在于HashiCorp Registry，若不存在则报错Provider registry.terraform.io/hashicorp/azurerm 3.105.0 does not exist；
与Azure握手：调用azurermprovider的Configure方法，验证client_id/client_certificate_path等凭证能否成功获取Azure AD令牌，失败则报错Error: Error building AzureRM Client: Authenticating using the Azure CLI is only supported as a User (not a Service Principal)；
与Backend握手：检查Storage Account的container_name是否存在，若不存在则报错Error: Error retrieving container: containers.Client#GetProperties: Failure responding to request: StatusCode=404。

因此，初始化失败的排查顺序必须是：Registry → Azure Auth → Backend。常见错误案例：

报错Failed to get shared config：Azure CLI未登录，执行az login --use-device-code；
报错Unable to list objects in container：Storage Account防火墙阻止了当前IP，需在Portal中临时添加客户端IP到防火墙白名单；
报错No valid credential sources found：client_certificate_path指向的证书文件权限为644，Azure要求必须是600（chmod 600 ./cert.pfx）。

实测终端日志（已脱敏）：

$ terraform init Initializing the backend... Successfully configured the backend "azurerm"! Terraform will automatically use this backend unless the backend configuration changes. Initializing provider plugins... - Finding hashicorp/azurerm versions matching "3.105.0"... - Installing hashicorp/azurerm v3.105.0... - Installed hashicorp/azurerm v3.105.0 (signed by HashiCorp) Terraform has created a lock file .terraform.lock.hcl to record the provider selections it made above. Include this file in your version control repository. Terraform has been successfully initialized!

4.2 计划与预检：`terraform plan -out=tfplan`的不可替代性

terraform plan不是可选步骤，而是生产环境的“手术预演”。我们强制要求：

所有apply前必须生成二进制plan文件（-out=tfplan），禁止直接apply；
CI流水线中，plan和apply必须分离为两个Job，且applyJob需人工审批；
plan输出必须重定向到文件并上传为构建产物，供审计追溯。

关键参数解析：

-var-file=prod.tfvars：加载环境变量，避免敏感值硬编码；
-target=azurerm_virtual_machine.vm：当只需更新VM配置时，精准靶向，避免误删网络；
-refresh=false：跳过state刷新，仅基于当前state文件计算差异（适用于网络策略变更等场景）。

一次典型的plan输出解读：

Terraform will perform the following actions: # azurerm_virtual_machine.vm[0] will be updated in-place ~ resource "azurerm_virtual_machine" "vm" { id = "/subscriptions/xxx/resourceGroups/rg-prod-devops-webapp-eastus/providers/Microsoft.Compute/virtualMachines/vm-01" ~ size = "Standard_B2s" -> "Standard_B4ms" # 变更实例规格 # (12 unchanged attributes hidden) # (2 unchanged blocks hidden) } Plan: 0 to add, 1 to change, 0 to destroy.

注意will be updated in-place而非will be replaced——这意味着Azure将原地调整VM规格，无需重建。若显示must be replaced，则说明变更触发了不可变属性（如OS磁盘类型），此时plan会警告Destroy and then create replacement，你必须确认是否接受停机。

4.3 应用与验证：`terraform apply tfplan`后的三重校验

执行apply后，绝不能只看Apply complete! Resources: 1 added, 0 changed, 0 destroyed.就收工。必须进行三重校验：

Azure Portal校验：打开Portal，导航至资源组，确认所有资源状态为Succeeded，且时间戳与apply时间吻合；
Terraform State校验：运行terraform state list，确认资源列表与代码中定义完全一致，无意外残留；
业务连通性校验：对Web应用，必须curl其公网IP，返回HTTP 200；对数据库，必须telnet端口验证连通性。

我们编写了一个校验脚本validate.sh，集成到CI中：

#!/bin/bash # 检查资源组是否存在 if ! az group exists --name "$RG_NAME"; then echo "ERROR: Resource Group $RG_NAME not found" exit 1 fi # 检查VM是否运行中 VM_STATUS=$(az vm get-instance-view --resource-group "$RG_NAME" --name "vm-01" --query 'instanceView.statuses[?code==`PowerState/running`].code' -o tsv) if [[ "$VM_STATUS" != "PowerState/running" ]]; then echo "ERROR: VM not running" exit 1 fi # 检查Web服务响应 PUBLIC_IP=$(az network public-ip show --resource-group "$RG_NAME" --name "pip-frontend" --query 'ipAddress' -o tsv) if ! curl -s --max-time 10 "http://$PUBLIC_IP" | grep -q "Welcome"; then echo "ERROR: Web service not responding" exit 1 fi echo "✅ All validations passed"

这个脚本在apply后自动执行，任一失败即标记CI为失败，阻断发布流程。

4.4 CI/CD集成：GitHub Actions中的最小可行流水线

我们摒弃Jenkins等重型工具，采用GitHub Actions实现端到端自动化。核心原则：每个Job职责单一，且失败时提供可操作的修复指引。流水线YAML如下：

name: Terraform on Azure on: push: branches: [main] paths: ["infrastructure/**"] jobs: validate: runs-on: ubuntu-latest steps: - uses: actions/checkout@v4 - name: Setup Terraform uses: hashicorp/setup-terraform@v2 with: terraform_version: 1.5.7 - name: Terraform Init run: terraform init -backend-config="storage_account_name=${{ secrets.STORAGE_ACCOUNT_NAME }}" working-directory: ./infrastructure - name: Terraform Validate run: terraform validate working-directory: ./infrastructure plan: needs: validate runs-on: ubuntu-latest steps: - uses: actions/checkout@v4 - name: Setup Terraform uses: hashicorp/setup-terraform@v2 with: terraform_version: 1.5.7 - name: Terraform Init run: terraform init -backend-config="storage_account_name=${{ secrets.STORAGE_ACCOUNT_NAME }}" working-directory: ./infrastructure - name: Terraform Plan id: plan run: terraform plan -out=tfplan -var-file=prod.tfvars working-directory: ./infrastructure - name: Upload Plan uses: actions/upload-artifact@v3 with: name: tfplan path: ./infrastructure/tfplan apply: needs: plan runs-on: ubuntu-latest if: github.event_name == 'push' && github.ref == 'refs/heads/main' steps: - uses: actions/checkout@v4 - name: Setup Terraform uses: hashicorp/setup-terraform@v2 with: terraform_version: 1.5.7 - name: Terraform Init run: terraform init -backend-config="storage_account_name=${{ secrets.STORAGE_ACCOUNT_NAME }}" working-directory: ./infrastructure - name: Download Plan uses: actions/download-artifact@v3 with: name: tfplan path: ./infrastructure - name: Terraform Apply env: ARM_CLIENT_ID: ${{ secrets.ARM_CLIENT_ID }} ARM_CLIENT_CERTIFICATE_PATH: ${{ secrets.ARM_CLIENT_CERTIFICATE_PATH }} ARM_CLIENT_CERTIFICATE_PASSWORD: ${{ secrets.ARM_CLIENT_CERTIFICATE_PASSWORD }} run: terraform apply tfplan working-directory: ./infrastructure

关键设计点：

secrets全部通过GitHub Secrets管理，ARM_CLIENT_CERTIFICATE_PATH指向CI运行时自动生成的临时路径；
applyJob的if条件确保仅在main分支推送时触发，避免feature分支误操作；
validate和plan无敏感凭据，可公开查看；apply需凭据且需人工审批（通过GitHub Environments配置审批流）。

5. 常见问题与排查技巧实录：那些让你凌晨三点惊醒的错误

5.1 “Error: creating Virtual Network: StatusCode=400” —— CIDR冲突的隐形杀手

现象：terraform apply在创建VNet时失败，错误码400，日志中仅显示The specified address space overlaps with another address space。
根因：Azure要求同一订阅内所有VNet的地址空间不能重叠，但新手常忽略已存在的VNet（如默认VNet或测试环境遗留）。
排查步骤：

列出所有VNet：az network vnet list --query "[].{Name:name,AddressSpace:addressSpace.addressPrefixes}" -o table；
检查输出中是否有10.0.0.0/16或192.168.0.0/16等常用网段被占用；
若冲突，修改代码中address_space为172.16.0.0/16（IANA保留的私有网段，冲突概率最低）。
独家技巧：在variables.tf中定义cidr_block变量时，添加描述：

variable "cidr_block" { description = "VNet CIDR block. Must NOT overlap with any existing VNet in subscription. Recommended: 172.16.0.0/16" type = string }

让后续使用者一眼看到风险。

5.2 “Error: Error waiting for completion of Virtual Machine: StatusCode=409” —— 可用性集（Availability Set）的诅咒

现象：创建VM时卡在waiting for completion，最终超时失败，错误码409（Conflict）。
根因：Azure要求同一可用性集内的VM必须使用相同大小的实例（如全为Standard_B2s），但代码中size参数被count动态计算，导致两台VM规格不一致。
复现代码：

resource "azurerm_virtual_machine" "vm" { count = 2 size = count.index == 0 ? "Standard_B2s" : "Standard_B4ms" # ❌ 错误！ # ... }

解决方案：

方案1（推荐）：删除count，用for_each遍历固定规格列表；
方案2：在availability_set_id参数中显式指定可用性集，确保其platform_fault_domain_count和platform_update_domain_count与VM数量匹配（通常设为3和20）。
避坑心得：可用性集是Azure经典部署模型的遗留物，新项目应优先考虑可用性区域（Availability Zones），它提供更高SLA且无需预定义集合。

5.3 “Error: Error retrieving Public IP Address: StatusCode=404” —— 状态同步延迟的幻影

现象：terraform plan显示要创建Public IP，但apply后output中public_ip_address为空，手动terraform refresh也无效。
根因：Azure ARM API存在最终一致性（Eventual Consistency），Public IP的ipAddress属性可能在资源创建成功后数秒才可读取。Terraform的azurerm_public_ip数据源默认不等待，直接返回空值。
解决方法：在output中使用azurerm_public_ip资源的ip_address属性，而非数据源：

# ❌ 错误：使用数据源 data "azurerm_public_ip" "pip" { name = "pip-frontend" resource_group_name = azurerm_resource_group.main.name } output "public_ip" { value = data.azurerm_public_ip.pip.ip_address # 可能为空 } # ✅ 正确：使用资源属性 output "public_ip" { value = azurerm_public_ip.pip.ip_address # 确保资源已创建 }

经验之谈：所有output必须引用resource而非data，除非你明确需要读取已有资源（如共享VNet）。

5.4 “Error: Invalid index” ——`for_each`与空集合的死亡陷阱

现象：当var.vm_names = []（空列表）时，for_each = toset(var.vm_names)导致Invalid index错误。
根因：toset([])返回空集合，但for_each在空集合时仍会尝试迭代，引发索引越界。
终极解法：使用length()函数兜底：

resource "azurerm_linux_virtual_machine" "vm" { for_each = length(var.vm_names) > 0 ? toset(var.vm_names) : toset(["dummy"]) # ... 配置 lifecycle { ignore_changes = [ # 当vm_names为空时，忽略所有变化 each.key ] } }

但更优雅的方式是：在CI流水线中，用jq校验tfvars文件，若vm_names为空则直接退出，避免无效执行。

if [[ $(jq -r '.vm_names | length' prod.tfvars) -eq 0 ]]; then echo "ERROR: vm_names cannot be empty" exit 1 fi

5.5 “Error: Plugin reinitialization required” —— Provider版本漂移的幽灵

现象：terraform plan报错Plugin reinitialization required，提示The plugin cache contains plugins for different versions。
根因：团队成员本地~/.terraform.d/plugin-cache中缓存了不同版本的azurerm插件，导致init时混乱。
根治方案：在项目根目录创建.terraformrc：

plugin_cache_dir = "$HOME/.terraform.d/plugin-cache" disable_plugin_cache = false

并强制所有成员执行：

rm -rf .terraform rm -f .terraform.lock.hcl terraform init -plugin-dir="$HOME/.terraform.d/plugin-cache"

血泪教训：.terraform.lock.hcl必须提交到Git，它记录了精确的provider哈希值，是跨环境一致性的基石。曾有团队因忽略此文件，导致开发机plan正常，CI环境却因插件版本差异而失败。

提示：所有错误排查的核心逻辑是——先看Terraform日志级别，再查Azure Activity Log，最后核对ARM API文档。Terraform错误通常是表象，Azure Activity Log（在Portal中搜索“Activity Log”）会显示真实的HTTP请求和响应，这才是真相所在。

6. 进阶思考：当你的IaC开始影响组织架构

6.1 模块化不是为了炫技，而是为了隔离变更爆炸半径

我们曾有一个客户，其main.tf长达2000行，包含网络、计算、存储、监控所有组件。一次简单的VM镜像升级（source_image_reference变更），触发了terraform plan显示要销毁并重建整个VNet——因为VNet的tags参数被错误地绑定到VM模块的count变量上。模块化的本质，是用代码边界模拟组织边界：网络团队只维护network模块，计算团队只改compute模块，彼此通过明确定义的output和input交互。我们的模块设计铁律：

每个模块必须有README.md，清晰定义inputs（含默认值和约束）、outputs、dependencies；
模块内禁止跨资源组引用（如azurerm_resource_group.other.id），所有外部依赖必须通过变量传入；
模块版本号遵循语义化版本（SemVer），主版本升级必须伴随BREAKING CHANGES文档。

一个健康的模块仓库结构：

/modules /network main.tf # VNet、子网、NSG variables.tf # location, address_space, nsg_rules outputs.tf # vnet_id, subnet_ids /compute main.tf # VM、可用性集、磁盘 variables.tf # vm_size, admin_username, ssh_key_path outputs.tf # vm_public_ips, vm_private_ips /monitoring main.tf # Log Analytics Workspace、Diagnostic Settings

6.2 状态管理：当`terraform state rm`成为你的最后一张牌

terraform state rm是删除state中资源跟踪的命令，但它不是“删除资源”，而是“解除Terraform对该资源的管理”。我们只在三种场景下使用：

资源被手动删除：当有人在Portal中误删了Storage Account，terraform plan会显示must be replaced，此时先state rm，再import恢复；
模块重构迁移：将旧版azurerm_virtual_machine_scale_set迁移到新版azurerm_linux_virtual_machine，需先state rm旧资源，再import新资源；
敏感资源剥离：如Key Vault，因审计要求需将其从IaC管理中移出，改由Azure Policy强制管控。

生死线警告：执行state rm前，必须：

git commit当前state文件；
terraform state list截图存档；
在state rm后立即terraform import验证资源是否仍在；
最后terraform plan确认无意外变更。
曾有团队在未备份情况下执行state rm，导致生产环境DNS记录丢失，因为azurerm_dns_a_record被误删且未及时import。

6.3 向左移位：把Terraform验证嵌入IDE和PR流程

真正的IaC成熟度，不在于能否apply，而在于能否在代码提交前就拦截90%的错误。我们在VS Code中配置：

Terraform Extension：实时语法检查，高亮count与for_each混用；
Custom Snippets：预置安全模板，如azurerm_resource_groupsnippet自动包含tags和location；
Pre-commit Hook：使用pre-commit-terraform，在git commit时自动执行terraform fmt和terraform validate。

在GitHub PR中，我们配置了checkov扫描：

- name: Checkov Security Scan uses: bridgecrewio/checkov-action@v24 with: directory: ./infrastructure framework: terraform quiet: false soft_fail: false # 任何高危漏洞（如NSG开放22端口）直接阻断PR

这让我们在代码合并前就发现：