当前位置：首页 > news >正文

从PVE迁移到ESXi：我的踩坑记录与完整操作流程

news 2026/6/5 6:29:50

从PVE迁移到ESXi：我的踩坑记录与完整操作流程

当我的团队从初创阶段进入规模化运营时，原先使用的Proxmox VE（PVE）开始暴露出管理界面分散、企业级功能缺失等问题。经过多次深夜故障排查后，我决定将整个虚拟化平台迁移至VMware ESXi。这次迁移不仅涉及数十台生产虚拟机，还包括复杂的网络拓扑和硬件直通设备。本文将完整还原这次历时三周的迁移历程，重点分享那些官方文档未曾提及的"暗坑"和独创解决方案。

1. 迁移前的关键决策与准备工作

迁移虚拟化平台就像给飞行中的飞机更换引擎，任何失误都可能导致业务停摆。在正式操作前，我花了整整一周时间进行环境评估和方案验证。

硬件兼容性检查是首要关卡。虽然ESXi 7.0的硬件兼容性列表（HCL）已经相当完善，但我们的老款RAID卡还是遇到了驱动问题。通过以下命令可以快速验证设备支持情况：

# 在现有Linux系统上获取硬件ID lspci -nn | grep -i "storage"

对比VMware兼容性数据库时，要特别注意设备ID和厂商ID的组合匹配。我们最终通过更换HBA330阵列卡解决了这个问题，成本比预期低了40%。

存储规划方面，ESXi的磁盘占用确实令人咋舌。通过定制安装参数可以大幅缩减系统分区：

# 在ESXi安装启动界面按Shift+O autoPartitionOSDataSize=8192

这个设置将系统分区控制在8GB，相比默认的120GB节省了93%空间。但要注意这会影响日志存储周期，我们额外配置了远程syslog服务器作为补充。

2. 虚拟机磁盘格式转换实战

从PVE的qcow2到ESXi的vmdk转换看似简单，实则暗藏玄机。主流方案有三种，我们最终选择了链式转换法：

qemu-img直接转换（简单但易出错）
```
qemu-img convert -p -f qcow2 -O vmdk input.qcow2 output.vmdk
```
问题：生成的vmdk在ESXi中经常报错"Invalid disk format"

通过OVA中转（兼容性好但步骤繁琐）

# 先将qcow2转换为raw qemu-img convert -p -f qcow2 -O raw input.qcow2 temp.raw # 创建OVF描述文件 tar -cvf output.ova temp.raw metadata.ovf

问题：大文件转换耗时呈指数增长

链式转换法（我们的最终方案）

# 步骤1：转换为稀疏格式的raw qemu-img convert -p -f qcow2 -O raw input.qcow2 temp_sparse.raw # 步骤2：转换为预分配的raw qemu-img convert -p -f raw -O raw temp_sparse.raw temp_prealloc.raw # 步骤3：最终转换为vmdk vmkfstools -i temp_prealloc.raw -d thin output.vmdk

优势：转换成功率100%，且保留精简配置特性

转换过程中我们发现了磁盘对齐这个隐形杀手。未对齐的磁盘会导致性能下降达30%，通过以下命令验证：

fdisk -lu disk.img | grep "sectors/track"

理想值应该是8的倍数（如63→调整为64）。我们开发了自动化校正脚本，将转换流程从手动8小时缩短到15分钟。

3. 网络配置的重构艺术

PVE和ESXi的网络模型差异就像两种编程语言，需要彻底重构而非简单映射。我们的生产环境包含：

5个VLAN（管理、业务、存储、备份、DMZ）
2台物理交换机（堆叠模式）
链路聚合（LACP）

虚拟交换机配置是第一个挑战。ESXi的标准交换机(vSwitch)不支持PVE的Linux桥接特性，我们采用分布式交换机(VDS)方案：

功能对比	PVE实现方式	ESXi等效方案
VLAN中继	bridge vlan-aware	VDS with trunk port
链路聚合	bond0+LACP	LAG on VDS
混杂模式	bridge参数	Security Policy配置

关键配置片段：

# 创建分布式端口组 New-VDPortgroup -VDSwitch "Prod-VDS" -Name "VLAN100" -VlanId 100 # 启用LACP Get-VDSwitch "Prod-VDS" | Get-VDUplinkLacpPolicy | Set-VDUplinkLacpPolicy -Enable $true

MTU问题耗费了我们两天排查时间。当Jumbo Frame设置为9000时，ESXi默认的TCP分段会导致存储网络异常。解决方案是在所有虚拟交换机上启用巨帧：

esxcli network vswitch standard set -v vSwitch0 -m 9000 esxcli network nic generic set -n vmnic0 -g -K "JumboPacket" -V 9000

4. 硬件直通与性能调优

我们的GPU加速服务依赖PCIe直通，这在ESXi上需要更精细的控制。与PVE的简单勾选不同，ESXi要求：

在主机BIOS中启用VT-d/AMD-Vi

修改ESXi引导参数

# 编辑/bootbank/boot.cfg append = "cpuUniformityHardCheckPanic=false"

精确的设备ID标记

lspci -nn | grep -i "nvidia" # 输出示例：01:00.0 3D controller [0302]: NVIDIA Corporation Device [10de:13f2] esxcli hardware pci passthrough set -d 0000:01:00.0 -e on

NUMA调优带来了意外惊喜。我们的双路服务器在PVE中经常出现CPU调度不均，通过ESXi的NUMA亲和性设置提升了23%的性能：

# 查看NUMA拓扑 esxcli hardware memory get # 设置虚拟机NUMA亲和性 vim-cmd vmsvc/get.config <vmid> | grep numa

存储方面，VMFS6的自动空间回收功能解决了我们的磁盘碎片问题。但需要注意：

启用自动回收需要阵列支持UNMAP命令建议在非高峰时段手动执行：esxcli storage vmfs unmap -l "datastore1"

5. 免费版ESXi的生产实践

很多人认为免费版ESXi无法用于生产，但我们通过以下方案突破了限制：

API替代方案：

用PowerCLI替代vCenter API

Connect-VIServer -Server esxi01 -User root -Password xxx Get-VM | Where {$_.PowerState -eq "PoweredOn"} | Stop-VM -Confirm:$false

备份策略：

# 利用ghettoVCB脚本 /vmfs/volumes/datastore1/ghettoVCB/ghettoVCB.sh -f /tmp/vmlist

监控系统：

Telegraf + InfluxDB + Grafana组合

[[inputs.vsphere]] vcenters = ["https://esxi01/sdk"] username = "root" password = "xxx" insecure_skip_verify = true

网络存储方面，我们巧妙运用NFS替代了无法使用的vMotion：

# 创建NFS存储 esxcli storage nfs add -H nas01 -s /export/vmstore -v nfs_datastore # 冷迁移虚拟机 vim-cmd vmsvc/getallvms | awk '{print $1}' | xargs -I {} vim-cmd vmsvc/task.create {} relocate

6. 那些官方没告诉你的经验

迁移后的三个月里，我们积累了一些独特经验：

时钟漂移解决方案：

# 在VMX文件中添加 tools.syncTime = "FALSE" time.synchronize.continue = "FALSE" time.synchronize.restore = "FALSE" time.synchronize.resume.disk = "FALSE" time.synchronize.shrink = "FALSE"

USB设备持久化：

# 查找设备路径 lsusb -v | grep -i "serial" # 添加至/etc/rc.local echo '0000:01:00.0' > /sys/bus/pci/drivers/uhci_hcd/bind

内存压缩最佳实践：

# 查看当前状态 esxcli system settings advanced list -o /Mem/ShareForceSalting # 推荐设置 esxcli system settings advanced set -i 2 -o /Mem/ShareForceSalting

从PVE到ESXi的迁移就像从开放式工作区搬进专业实验室，虽然初期需要适应各种规范，但获得的稳定性和管理效率提升让团队再也不想回到"野蛮生长"的时代。现在我们的运维效率提升了40%，故障诊断时间缩短了65%，这充分证明了专业工具的价值。

查看全文

http://www.cnnetsun.cn/news/2762987.html

如何快速上手HunyuanVideo-1.5：10分钟从零开始生成你的第一个AI视频 [特殊字符]

Vortex模组管理器：5个简单步骤打造你的完美游戏世界

提升黑苹果性能：CPU超频与电源管理优化终极指南

Neural-Network-Architecture-Diagrams：终极神经网络架构可视化指南，12种经典模型一键获取

指纹识别入门实战：如何用Matlab处理模糊指纹图像并提升匹配准确率？

收藏 | AI时代，这3种程序员注定被淘汰！小白程序员必看（附应对策略）

mdeberta-v3-base-squad2模型压缩与量化：如何在保持精度的同时减少70%内存占用

使用 Beancount 记账

当 AI 学会打坐冥想，八卦阵法里的意识涌现真相

从Pwn视角看动态链接：手把手教你一步步伪造ret2dlresolve攻击链（x86/x64实战）

Js代码转HTML，Js和Html互转在线工具

从图形调试困境到精准定位：RenderDoc现代图形调试全流程解析

AI如何用高效信息破解NP完全性困境

别再裸机轮询了！用STM32F407和RTX5实现多任务，代码清爽得像换了个人

从LaTeX代码到完美排版：手把手教你调试IEEE模板中的作者信息区块（authorblock）

别再只调包了！深入Spark MLlib ALS源码，搞懂电商推荐中的矩阵分解与冷启动难题

手把手教你用Cloudflare为R2S软路由下的NAS设置DDNS，实现免费外网访问（含URL转发隐藏端口）

别再死记硬背了！用‘上下文无关文法’和‘语法树’图解，5分钟搞懂高级语言语法核心

新手避坑指南：用龙邱BCMV3扩展板给树莓派4B小车编程，从LED到电机驱动全流程

避坑指南：路透社数据集多分类任务中，标签编码选categorical_crossentropy还是sparse_categorical_crossentropy？

免费降重工具精选：AI智能改写高效降低重复率

计算机专业学生必看：如何利用CCF和CORE排名，快速定位适合投稿的顶会（附最新列表）

MuleSoft企业级AI编排：LLM工业封装与生产落地实践

从板框评估到叠层设计：一个四层PCB项目在AD中的完整避坑实操记录

跨GPU超分辨率技术：如何让游戏帧率提升300%？

别再纠结了！用Altium Designer设计电路时，RC和LC滤波器到底怎么选？（附实战对比）

KoAlpaca-llama-1-7b韩语对话模型：为什么选择它进行韩语NLP任务

OptiScaler：一键解锁所有显卡的AI超分超能力

保姆级教程：在Docker版Nextcloud里离线安装Collabora在线文档（附端口映射与权限配置避坑点）

零基础入门安卓开发：在快马平台获取你的第一个带注释的Android Studio项目