当前位置：首页 > news >正文

用Python处理LiTS17的nii文件：我是如何为肝脏分割任务准备2D训练数据的

news 2026/6/14 11:00:27

用Python高效处理LiTS17数据集：从3D医学影像到2D训练数据的实战指南

在医学影像分析领域，LiTS17数据集作为肝脏肿瘤分割任务的重要基准，为研究者提供了丰富的CT扫描数据。然而，直接将原始的3D nii文件用于深度学习模型训练往往会遇到诸多挑战。本文将分享一套完整的处理流程，帮助您将LiTS17数据集转化为适合2D分割模型训练的高质量PNG图像对。

1. 理解LiTS17数据集的结构与特点

LiTS17数据集包含131组腹部CT扫描的3D体积数据，每组数据由两个nii文件组成：

volume-{id}.nii：CT扫描的原始图像数据，灰度值范围通常为-100到400HU
segmentation-{id}.nii：专家标注的肝脏和肿瘤分割掩码

数据集的关键特性如下表所示：

特性	描述
空间分辨率	各向异性，典型值为0.6-1.0mm (x,y), 0.45-6.0mm (z)
切片数量	每例42-1026张不等
标注类别	0:背景, 1:肝脏, 2:肿瘤
数据分布	70%训练集, 30%测试集

注意：由于CT扫描仪和采集参数不同，各病例的体素间距和切片厚度存在差异，这是医学影像数据的常见特点。

2. 构建高效的数据预处理流水线

2.1 环境准备与依赖安装

处理nii文件需要特定的Python库支持。推荐使用conda创建虚拟环境：

conda create -n lits python=3.8 conda activate lits pip install nibabel pydicom opencv-python imageio numpy

核心库的功能说明：

nibabel：专业的医学影像读取和写入工具
opencv-python：图像处理与阈值化操作
imageio：多种格式的图像读写支持
numpy：高效的数组运算基础

2.2 nii文件读取与标准化处理

医学影像的标准化是预处理的关键步骤。以下代码展示了如何正确读取并归一化CT值：

import nibabel as nib import numpy as np def load_nii_file(filepath): """加载nii文件并返回标准化后的数据""" img = nib.load(filepath) data = img.get_fdata() # 转换为float32并归一化到0-255范围 data = data.astype(np.float32) if data.max() > data.min(): # 避免除以零 data = (data - data.min()) / (data.max() - data.min()) * 255 return data

3. 从3D到2D的智能切片策略

3.1 轴向切片提取与质量控制

简单的沿z轴切片可能产生大量无肝脏组织的无效图像。我们采用基于掩码面积的质量控制方法：

def filter_valid_slices(volume, segmentation, min_area_ratio=0.015): """筛选包含足够肝脏组织的有效切片""" valid_slices = [] total_pixels = volume.shape[0] * volume.shape[1] for z in range(volume.shape[2]): seg_slice = segmentation[:, :, z] liver_pixels = np.sum(seg_slice > 0) # 统计肝脏和肿瘤像素 if liver_pixels / total_pixels > min_area_ratio: vol_slice = volume[:, :, z] valid_slices.append((vol_slice, seg_slice)) return valid_slices

3.2 二分类掩码的生成技巧

对于肝脏分割任务，可将肿瘤和肝脏合并为单一类别：

def create_binary_mask(seg_slice): """将多类分割掩码转换为二分类(背景/肝脏)""" binary_mask = np.zeros_like(seg_slice) binary_mask[seg_slice > 0] = 255 # 肝脏和肿瘤都标记为前景 return binary_mask.astype(np.uint8)

4. 优化存储与加速训练的技巧

4.1 高效的图像存储方案

将处理后的图像组织为以下目录结构可简化后续数据加载：

LiTS_2D/ ├── train/ │ ├── images/ │ └── masks/ └── val/ ├── images/ └── masks/

使用多进程加速图像保存过程：

from multiprocessing import Pool def save_slice(args): """并行保存单张切片""" idx, vol_slice, seg_slice, save_dir = args cv2.imwrite(f"{save_dir}/images/{idx}.png", vol_slice) cv2.imwrite(f"{save_dir}/masks/{idx}.png", seg_slice) def save_slices_parallel(slices, save_dir, num_workers=4): """并行保存所有切片""" os.makedirs(f"{save_dir}/images", exist_ok=True) os.makedirs(f"{save_dir}/masks", exist_ok=True) args = [(i, v, s, save_dir) for i, (v, s) in enumerate(slices)] with Pool(num_workers) as p: p.map(save_slice, args)

4.2 数据增强的预处理考量

在保存2D图像时，可预先考虑后续的数据增强需求：

窗宽窗位调整：保留原始CT值范围信息
空间信息记录：保存体素间距等元数据
切片位置标记：记录切片在原始体积中的序号

5. 处理过程中的常见问题与解决方案

5.1 内存优化策略

处理大型nii文件时可能遇到内存不足的问题，可采用分块处理策略：

def process_large_nii(nii_path, chunk_size=50): """分块处理大型nii文件以节省内存""" img = nib.load(nii_path) data = img.get_fdata() results = [] for z_start in range(0, data.shape[2], chunk_size): z_end = min(z_start + chunk_size, data.shape[2]) chunk = data[:, :, z_start:z_end] # 处理当前分块... return results