当前位置: 首页 > news >正文

扒源码 | Cube Sandbox 的微虚机、容器镜像、可写层,是怎么串到一起的

本文作者洪志国,原文发布于个人技术博客。作者基于 Cube Sandbox v0.1.1 测试环境对其存储架构进行了一次深度拆解,公众号经作者同意,对原文做了少量适配性编辑。

如果你已经在用 Cube Sandbox,可能会想过几个问题:

◆ 我跑一个沙箱,容器镜像到底放在宿主机上还是微虚机里

◆ 我同时拉起 10 个一样的沙箱,会不会浪费 10 倍内存去缓存同一份镜像

◆ 我对沙箱里的文件做的修改,最终落到了哪一块磁盘上

◆ Cube 号称"几十毫秒起一台沙箱",这件事在存储层是怎么做到的

◆ “从快照启动"和"从镜像启动”——名字差不多,底层走的是同一套存储路径吗

这些问题不影响你"用"Cube,但会影响你信任它、调优它,或者真的把它跑到生产。我自己最近想搞清楚这些,就在一个 v0.1.1 的测试环境里把存储这条链路从头到尾扒了一遍。

整个过程比想象中要曲折,还顺手扒出了一个我觉得可能有问题的设计(先卖个关子,文末讲)。这篇就把我看到的东西整理出来,希望对你有用。

◆一、先看一台沙箱启动时,到底都准备了什么◆

Cube Sandbox 的运行时模型是“宿主机 → 微虚机 (MVM) → 容器”这样一个三层夹心。要看清存储架构,最方便的入口是微虚机的配置文件 vm.info。

以一个 sandbox(id 取头一段 4d656bd3...)为例,可以通过一条命令拿到它的完整 vm.info:

    curl --unix-socket /run/vc/vm/4d656bd3.../chapi \http://localhost/api/v1/vm.info | jq

    vm.info 里包含了这台微虚机的所有秘密——内核启动参数、虚拟块设备清单、virtiofs 挂载、网络配置等等。后面的所有分析,都是从这个文件里反推出来的

    另外,Cube 启动一台沙箱有两种入口:

    从镜像创建—— 直接拉一个 Docker 镜像跑

    从快照恢复—— 从一个预先打好的模板(template)恢复

    这两条路径在"存储"这一块走的不是同一条流水线。下面分开讲。

    ◆从镜像创建:四块磁盘各司其职◆

    从镜像创建 sandbox 的存储架构总览图

    2.1 一个最小化的启动请求长什么样

      {"volumes": [{ "name": "rootfs-wlayer", "volume_source": { "empty_dir": { "SizeLimit": "1Gi" } } },{ "name": "tmp", "volume_source": { "empty_dir": { "SizeLimit": "2Gi" } } }],"containers": [{"name": "nginx","image": { "image": "nginx:latest" },"command": ["sleep"], "args": ["1000000"],"volume_mounts": [{ "name": "rootfs-wlayer", "container_path": "/" },{ "name": "tmp", "container_path": "/mnt1" }],"resources": { "cpu": "500m", "mem": "512Mi" },"security_context": { "readonly_rootfs": false }}]}

      注意两个 empty_dir:一个挂到容器根目录 /(其实是当作可写层用),另一个挂到 /mnt1(类似 k8s 的 emptyDir 临时卷)。后面会看到它俩在虚机里其实是两块 virtio-blk 磁盘。

      执行 cubecli cubebox create req.json,沙箱起来了。下面开始一块一块磁盘看进去。

      2.2 微虚机的系统盘:只读的 pmem,没有 page cache 开销

      从 vm.info 的 .config.payload.cmdline 字段可以看到:

        root=/dev/pmem0 rootflags=dax,errors=remount-ro ro rootfstype=ext4

        这说明微虚机的根文件系统挂在/dev/pmem0上,只读、启用DAX

        进一步从 .config.pmem[0].file 找到这个 pmem 的真身——宿主机上的一个 raw image 文件:

          /usr/local/services/cubetoolbox/cube-image/cube-guest-image-cpu.img

          可以手动 loop 挂载验证,里面就是一个标准的 ext4 文件系统。

          这里 Cube 做了两件挺聪明的事:

          用 pmem 而不是 virtio-blk—— 微虚机里的 ext4 访问数据时不走 block I/O 请求路径,直接当内存读;

          挂载时加 dax=always—— 微虚机内绕过 page cache,避免每台沙箱都给自己复制一份系统盘缓存

          如果你在一台宿主机上跑十几个沙箱,这一条直接省下十几份系统盘缓存的内存开销。

          💡小结:微虚机系统盘 = 宿主机上的一个 raw image + pmem + DAX 只读挂载。多沙箱共享,零 page cache。

          2.3 容器镜像:宿主机 containerd 解压 + virtiofs 透传

          容器镜像这一块走的是相对"传统"的路线:

          镜像先被 cubelet 下载到宿主机,并按 containerd 的 overlayfs snapshotter 展开:

            /data/cubelet/root/io.containerd.snapshotter.v1.overlayfs/refs/default├── f68a8bcb.../{fs,work}├── cbf2c778.../{fs,work}├── 894f3fad.../{fs,work}└── a464c54f.../{fs,work}

            每个子目录是镜像的一个 layer。然后 Cube 通过virtiofs把这些 layer 目录透传给微虚机——vm.info 的 .config.fs 部分里能看到 4 个 layer 全部 mount 了进来,tag 统一是 cubeShared。

            但注意 virtiofs 的一个关键参数:backendfs_config.cache = 2

            cache 值

            策略

            一致性 vs 性能

            0 (none)

            Guest 不缓存,每次走 Host

            一致性最好,性能最差

            1 (auto)

            元数据缓存 1s,close-to-open

            默认推荐

            2 (always)

            所有内容永久缓存

            性能最好,一致性最差

            Cube 选了最激进的 always。这意味着:镜像内容会在微虚机里产生 page cache。如果同一台宿主机上 10 个沙箱用同一个镜像,会产生 10 份重复的 page cache——这个跟系统盘 pmem 的"零 cache"形成了一个有意思的反差。

            不过考虑到容器镜像在沙箱里是高频读取的、且 Cube 这里追求的是"启动快",这个权衡是说得通的。

            💡小结:容器镜像 = 宿主机 containerd 解压成 layer + virtiofs 透传给微虚机。性能优先,会有重复 page cache。

            2.4 容器的可写层:reflink + 预热池,两层启动加速

            这一节是 Cube 工程细节最密、也最值得拆出来讲的部分。

            ◆2.4.1 宿主机上的空磁盘文件长什么样

            vm.info 里有两个 virtio-blk 磁盘(vda、vdb),对应宿主机上 /data/cubelet/storage/io.cubelet.internal.v1.storage/emptydir/ 目录下的两个 raw image 文件:

              emptydir/├── 1Gi/│ ├── 0/{16ab39..., 7cdb97..., base.raw}│ └── 1/{0c8cfd..., 0ebae4..., base.raw}├── cubebox/└── othersv2/├── 0/base.raw└── 1/{4b4302..., base.raw}

              每个 UUID 文件就是一个微虚机 virtio-blk 设备的后端,初始内容是一个空的 ext2 文件系统。1Gi 的放 1Gi/ 下,其他容量的放 othersv2/。

              那么问题来了——沙箱启动那一刻,这些"空磁盘"是从哪冒出来的?格式化一个 ext 文件系统不是瞬间能完成的事,为什么 Cube 能做到几十毫秒起一个沙箱?

              答案是两层优化叠加:reflink + 预热池

              ◆2.4.2 第一层:reflink,让"复制磁盘"几乎不消耗磁盘空间

              reflink(Copy-on-Write Link)是支持 CoW 的文件系统提供的高效文件克隆能力。

              ◆ 普通 cp:复制 inode + 复制所有数据块,时间和空间都跟原文件大小成正比;

              cp --reflink:只复制 inode,两个文件共享底层数据块;只有被修改的块才会真正复制——典型的写时复制。

              对 Cube 这个场景来说,这等于:一个 1GiB 的 base.raw 可以瞬间"复制"出一堆派生文件,磁盘几乎不占额外空间,IO 也几乎为零

              但 reflink 有一个硬性前提——底层文件系统必须支持它。目前 ext 系列不支持,xfs 和 btrfs 支持。所以官方建议 /data/cubelet 用 xfs;cubelet 启动时 plugin.go 的 checkPoolType() 会自动探测,不支持 reflink 就回退到普通拷贝——能跑,但启动会慢一些。

              如果你在生产里跑 Cube,这是一个一定要确认的部署细节。

              ◆2.4.3 第二层:预热池,把 reflink 也提前做好

              光有 reflink 还不够——cubelet 把这条优化又往前推了一步:连 reflink 这一步本身都提前做掉

              配置项 PoolDefaultFormatSizeList(默认 ["1Gi"])声明了要为哪些容量做预热。以 1Gi 为例:

              ◆ 在 emptydir/1Gi/ 下预先创建0 ~ 99 共 100 个子目录

              ◆ 每个子目录里预先生成一个 base.raw;

              ◆ 然后从这个 base.raw 通过 reflink预先克隆出一批可直接拿走的 raw 文件——这就是上面目录树里那些 UUID 文件。

              base.raw 本身的创建逻辑在 newExt4BaseRaw() 函数里,流程是:

                touch → truncate → mkfs.ext4 → mount → mkdir → umount

                这是一次性的、相对耗时的"格式化 + 初始化目录结构"。但只要做一次,后续所有需要 1Gi 可写层的沙箱都能直接"拎走一个"。

                ◆2.4.4 不常见容量怎么办:othersv2 走即时创建路径

                如果请求的可写层容量经过 normalizeRootfsSizes 规整化后没有落在预热池里(比如 2Gi、5Gi),就会走 othersv2/ 路径。

                othersv2/ 也有 100 个预创建子目录、每个里面也有 base.raw,但不预先 reflink。当请求来了,cubelet 现场做:

                  reflink(base.raw → new.raw) → truncate → e2fsck → resize2fs

                  —— 把基础镜像 reflink 出来,再 truncate 到目标大小,跑 e2fsck 修一下文件系统,最后 resize2fs 把文件系统真正撑到指定容量。

                  这条路径比预热池慢,但比"从零格式化"还是快得多。

                  💡小结:Cube 把"几十毫秒起一个沙箱"做到的关键秘诀之一,是把磁盘准备的成本拆成两层往前移——base 文件系统预先 mkfs 好,常见容量的 reflink 副本也预先做好;沙箱真正启动时,只需要从池子里"拎走一个 inode"。

                  📌作者注:这块逻辑在后续新版本中发生了巨大变化,后面有空专门再梳理一下。本文基于 v0.1.1,仅作为参考。

                  2.5 微虚机里:怎么把这一堆磁盘拼成容器的根目录?

                  登进微虚机看一眼挂载:

                    bash-5.2# mount/dev/pmem0 on / type ext4 (ro,relatime,errors=remount-ro,dax=always)/dev/vda on /run/blk-cube/vda type ext4 (rw,relatime)/dev/vdb on /run/blk-cube/vdb type ext4 (rw,relatime)cubeShared on /run/cube-containers/shared/containers type virtiofs (ro,relatime)overlay2 on /run/cube-containers/b48b9c8.../rootfs type overlay(rw,lowerdir=/run/cube-containers/shared/containers/{f68a8bcb..,cbf2c778..,894f3fad..,a464c54f..}/fs,upperdir=/run/blk-cube/vda/disk/b48b9c8.../upper,workdir =/run/blk-cube/vda/disk/b48b9c8.../work)

                    最后那条 overlayfs 挂载,就是容器真正的 rootfs。逻辑很清晰:

                    lowerdir= virtiofs 透传进来的 4 个镜像 layer(只读)

                    upperdir= virtio-blk vda 上的子目录(可写)

                    挂载点= /run/cube-containers/<sandbox-id>/rootfs,这个就是容器进程看到的根目录

                    至于 vdb,对应 req.json 里那个挂到 /mnt1 的 emptyDir——通过 bind mount 暴露到容器里就行了。

                    到这里,从镜像启动的整条存储链路就串完了:

                    宿主机 raw image (pmem 只读根) + 宿主机 containerd layer (virtiofs 透传) + 宿主机预制空磁盘 (virtio-blk 可写层) → 微虚机 overlayfs 合并 → 容器 rootfs

                    ◆三、从快照启动:另一条路径,主要差在镜像怎么走◆

                    如果你用的是 E2B 协议,那 sandbox 必须从模板(快照)创建。这条路径跟前面主要差在"容器镜像怎么从宿主机进到微虚机"这一步。

                    从快照创建 sandbox 的存储架构总览图

                    3.1 快照里到底存了什么

                    快照包含三部分,分别落在两个目录下:

                      /usr/local/services/cubetoolbox/├── cubebox_os_image/│ └── rfs-32b1e04a.../│ ├── rfs-32b1e04a....ext4 ← 容器镜像合并视图,打包成 ext4 raw image│ ├── rfs-32b1e04a....vm ← 微虚机内核二进制│ └── version└── cube-snapshot/cubebox/└── tpl-kvm-1/2C4096M/├── metadata.json└── snapshot/├── config.json├── memory-ranges ← 内存快照└── state.json ← CPU 状态

                      注意 .ext4 文件——这是 Cube 启动加速的关键设计:把容器镜像所有 layer 合并叠加之后的视图,整体打包成一个 ext4 文件系统。这样从快照启动时,不需要再走 containerd 的解压流程,一个文件直接挂上去就能用

                      3.2 微虚机里看到的差异

                      进微虚机看:

                        /dev/pmem0 on / type ext4 (ro, dax=always)/dev/pmem1 on /run/cube-containers/sandbox/pmem-cube/pmem1 type ext4 (ro, dax=always) ← 新增/dev/vda on /run/blk-cube/vda type ext4 (rw)

                        多了一个/dev/pmem1——就是上面那个 .ext4 镜像合并视图,以 pmem + DAX 方式挂载

                        然后 overlayfs 就用 pmem1 作 lowerdir,vda 作 upperdir,跟从镜像启动的拼装方式一样。

                        3.3 关键差异:从 virtiofs 走到了 pmem

                        把两种方式对照一下就一目了然了:

                        从镜像创建

                        从快照创建

                        宿主机上镜像形态

                        每个 layer 一个子目录(containerd 默认)

                        layer 合并后打包成一个 ext4 raw image

                        镜像怎么进微虚机

                        virtiofs(cache=always)

                        pmem 块设备 + DAX

                        微虚机内 page cache

                        会产生重复 page cache

                        零 page cache 开销

                        启动速度

                        较慢(要先解压 + virtiofs 拉起)

                        快(一个文件挂上去就行)

                        所以走快照这条路,不仅是为了 I/O 快、内存省,更是为了启动快。这也回应了为什么 E2B 协议要求"sandbox 必须从模板创建"——快照不只是"省心",它本身就是性能模型的一部分。

                        不过对于不走 E2B 协议、直接从镜像创建沙箱的场景,镜像如果也能用 pmem 方式(即接入"打包成 ext4"这一步),I/O 性能和内存开销都会更优。缺点是要多一步"打包"的工序。这或许是 Cube 后续可以优化的一个方向。

                        ◆四、扒着扒着,我发现了一个隐患◆

                        上面 3.1 节里我列了快照保存的目录结构,仔细看的话其中少了一样东西——微虚机的系统盘镜像 cube-guest-image-cpu.img

                        从快照拉起一台沙箱时,微虚机系统盘总是固定使用宿主机上 cubetoolbox/cube-image/cube-guest-image-cpu.img 这个文件——它没有被打包进快照。

                        这意味着:

                        如果在 T1 时刻基于 v1 版本的 cube-guest-image-cpu.img 打了一个快照;之后宿主机上的这个 image 文件被升级到了 v2;那么 T2 时刻从这个快照恢复出来的沙箱,微虚机系统盘已经是 v2 而不是当初打快照时的 v1 了

                        正常情况下,guest image 是向后兼容的,但如果某次升级里改了 init 流程、改了内核命令行解析逻辑,或者新增了对某个内核版本的依赖——从老快照恢复出来的沙箱行为,可能就和"当初打快照那一刻"对不上了

                        类似的事情对内核二进制是处理过的——.vm 文件就是为了避免快照里的内存状态和宿主机上 vmlinux 的符号表对不上而单独存的。但系统盘镜像这一份,看起来还是被漏掉了。

                        后续我会尝试给社区提一个 PR,把系统盘镜像也纳入快照打包流程,让"从某个快照恢复"真正意味着"完全回到打快照那一刻的状态"。如果你也在生产里跑 Cube,建议先关注一下这个点,避免在 guest image 升级期间踩到。

                        ◆五、写在最后◆

                        把这条链路扒下来之后,我对 Cube 的整体观感是:

                        “它在 '怎么让一台沙箱又快又省又隔离’这件事上,确实下了功夫。”

                        几个让我印象深的设计点:

                        ◆ 系统盘走 pmem + DAX,多沙箱零 cache 共享

                        ◆ 容器镜像 layer 走 virtiofs,用激进 cache 换启动速度

                        ◆ 可写层用reflink + 预热池两层叠加,把"格式化磁盘"这件事彻底从启动路径上挪走

                        ◆ 快照里把 layer 合并打包成 ext4,让"从快照启动"快到不需要再解压

                        当然也有可以改进的地方——比如上面提到的快照里少打包了系统盘镜像,比如直接从镜像启动场景下镜像还没法用 pmem 方式。

                        这些都是开源项目自然的成长空间,也是社区共建可以发力的地方。Cube 的代码我读下来风格挺清爽,新人友好度还不错,有兴趣的同学可以一起来看看。

                        🔗GitHub 仓库:https://github.com/TencentCloud/CubeSandbox

                        📝本文作者博客:https://honkiko.github.io/p/cubesandbox-storage-analysis/

                        💬 欢迎在 GitHub issue 或 Cube Sandbox 社区群里继续交流。如果你也在扒源码、找设计点,欢迎投稿。

                        http://www.cnnetsun.cn/news/3149188.html

                        相关文章:

                      • 2026年储能船型开关生产商盘点:谁在领跑市场?
                      • win11下Multipass修改默认MULTIPASS_STORAGE位置后,持续报错waiting for daemon的问题
                      • 5分钟掌握ppInk:Windows屏幕标注终极指南,让远程协作效率翻倍
                      • 【Java课程设计/毕业设计】农家乐客房排班运维管理系统的设计与实现 乡村民宿文旅服务智能化管理平台【附源码、数据库、万字文档】
                      • 【Java毕业设计】基于前后端分离的民宿农家乐综合管理系统的设计与实现 农家乐客房住宿预约与订单管理系统(源码+文档+远程调试,全bao定制等)
                      • 基于单片机人脸识别电子密码锁智能门禁指纹识别语音提醒防盗成品112(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_
                      • 手中有机, 心中不慌 (5 只 二手 Android 手机)
                      • 干货教程:APK反编译神器安卓修改大师,一步步教你如何美化和修改安卓应用
                      • Java计算机毕设之美容会员储值充值积分管理系统的设计与实现 美业技师业绩提成统计管理系统(完整前后端代码+说明文档+LW,调试定制等)
                      • LED灯珠颜色亮度工业自动化测量
                      • 工业机器人送料机械手设计实战指南
                      • 从电商项目课程设计,搞懂 JWT 鉴权和 Redis 缓存到底在解决什么问题
                      • 面试官问:“模型一本正经胡说时,logprobs 抓得到吗?“
                      • 你往 AI 里装的那些 skill,打开看过一眼吗?
                      • 【图像分类】实战ResNet——从零构建到CIFAR-10分类(Pytorch)
                      • Agent记忆系统设计与实现
                      • 别把知识图谱做成高级文档库——定制化做企业级知识图谱
                      • 【面板数据模型实战】从理论到Stata/R/Python实现与选择
                      • 【机器人】基于缓冲的不确定性感知沃罗诺伊单元多机器人碰撞规避附Matlab代码
                      • Rmarkdown动态文档创作与数据科学报告实战指南
                      • 【HarmonyOS NEXT】error: failed to install bundle. code:9568322...
                      • 多接地配电系统的基于PMU的系统状态估计附Matlab代码
                      • Linux /etc/fstab 配置详解:5个关键参数避免重启后挂载回退只读
                      • 普推黑体(PUTUI)1.202,更适合商标及标题文字!
                      • 用C语言的<wchar.h>宽字节库实现好玩的逐字输出效果(模拟打字)
                      • 鸿蒙新特性——Badge 徽章组件详解
                      • Linux 用户管理知识与应用实践(二:用户相关命令与示例)
                      • 高速 ADC 与 FPGA LVDS 接口设计:5 项 PCB 布线规则与 IDELAY 时序校准实战
                      • 远控横评:向日葵、ToDesk、UU 远程,远程玩游戏差距有多大
                      • Transformers自动化训练全流程优化实战