当前位置：首页 > news >正文

Linux下fastai第一课完整实操：PyTorch+CUDA+Jupyter环境从零搭建

news 2026/7/3 22:12:00

1. 项目概述：在Linux系统上扎实走完fastai第一课的完整实操路径

我带过不少从零开始学深度学习的朋友，发现一个特别普遍的现象：很多人卡在“环境跑不起来”这一步，不是报错就是版本冲突，最后对着Jupyter Notebook里那一行红色错误信息发呆，甚至怀疑自己是不是不适合搞AI。其实问题往往不在人，而在教程本身——很多入门课程默认你已经配好了环境、装好了库、甚至连GPU驱动都调通了，可现实是，Linux桌面环境千差万别，Ubuntu 20.04和22.04的Python包管理逻辑就不同，WSL2和原生Ubuntu的CUDA支持策略也完全两码事。这篇内容，就是我去年在Ubuntu 22.04 LTS + RTX 4090工作站上，从裸机开始，一行命令一行命令敲出来、反复验证过的fastai第一章完整复现记录。它不讲“什么是张量”，也不堆砌理论推导，只聚焦一件事：让你的Linux终端里，真真切切跑出learn.fit_one_cycle(1)那行代码，并看到loss值实实在在往下掉。核心关键词是fastai、Linux、PyTorch、Jupyter、CUDA，适合所有用Linux做深度学习开发的实践者，无论你是刚装好系统的研究生，还是想把老服务器升级到最新fastai的工程师。文中所有命令我都标注了适用场景（比如是否必须sudo、是否仅限conda环境）、失败时最可能的原因，以及我踩过的三个典型坑——其中一个坑让我花了整整两天才定位到是NVIDIA驱动和内核模块的版本错配。

2. 整体设计思路与方案选型逻辑

2.1 为什么坚持用Linux而非Windows或Mac？

这不是教条主义，而是基于生产环境的真实约束。我参与过的7个工业级CV项目，全部部署在Ubuntu LTS服务器上；公司内部的模型训练集群，清一色CentOS Stream或Rocky Linux；就连我们给客户交付的边缘推理盒子，底层也是裁剪过的Debian。这意味着，你在Windows上用Anaconda配好的环境，很可能在客户现场的ARM64服务器上根本起不来。Linux的确定性、可复现性和对底层硬件的控制力，是其他系统无法替代的。所以，fastai第一章的起点，必须是Linux原生环境，而不是WSL2这种“类Linux”。当然，如果你用的是WSL2，我会在后续章节专门标注哪些步骤需要调整，但主线流程一定按原生Ubuntu 22.04来设计。

2.2 为什么放弃pip而选择conda作为包管理器？

这是我在2021年之后所有新项目的铁律。原因很实际：PyTorch官方预编译的CUDA扩展，是和特定版本的cudatoolkit强绑定的。比如PyTorch 2.0.1 + CUDA 11.7，你用pip install pytorch，它会自动下载一个包含CUDA 11.7 runtime的wheel包；但如果你系统里装的是CUDA 12.1，或者压根没装CUDA，只是有NVIDIA驱动，那这个wheel包里的CUDA库就会和系统环境打架。conda则不同，它把cudatoolkit当作一个独立的包来管理，可以精确指定版本，还能自动处理libcuda.so的符号链接。我试过用pip在Ubuntu 22.04上安装PyTorch，结果Jupyter里import torch时报libcudart.so.11.0: cannot open shared object file，查了三小时才发现是系统CUDA版本和PyTorch wheel里硬编码的版本号不一致。换成conda后，一条conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia就搞定，所有依赖关系由conda solver自动解出，省心且稳定。

2.3 为什么Jupyter要单独配置，而不是直接用fastai自带的notebook？

fastai官方课程的notebook（比如01_intro.ipynb）里，大量使用了fastai.vision.all这种全量导入方式。这在小数据集上没问题，但一旦你后续要加载自己的大型图像数据集，这种导入会把整个fastai的vision模块、data模块、learner模块一股脑全加载进内存，光是import就要吃掉1.2GB RAM。我在一台32GB内存的机器上，就因为这个原因导致Jupyter kernel频繁被OOM killer干掉。所以我的方案是：不修改原始notebook，而是在Jupyter启动前，通过配置文件强制启用lazy import机制。具体做法是创建~/.jupyter/jupyter_notebook_config.py，加入c.NotebookApp.nbserver_extensions = {'jupyter_nbextensions_configurator': True}，再配合jupyter_contrib_nbextensions插件启用“Hinterland”代码提示，这样在写from fastai.vision.的时候，它只会动态加载vision模块下的子模块，而不是整个包。这个细节看似微小，却能让你在16GB内存的笔记本上也流畅运行第一章的所有示例。

2.4 为什么CUDA版本锁定在11.8，而不是最新的12.x？

这是经过血泪教训后的理性选择。NVIDIA在CUDA 12.x中彻底重构了driver API，引入了新的libnvrtc-builtins.so库，而截至2024年中，PyTorch官方发布的稳定版（2.0.x、2.1.x）对CUDA 12.1的支持仍不完善，尤其在混合精度训练（AMP）场景下，会出现RuntimeError: CUDA error: operation not supported when stream is capturing这类难以调试的错误。我曾为这个问题在PyTorch GitHub issue区翻了200+条讨论，最终确认是CUDA 12.1的stream capture机制和PyTorch的autocast上下文管理器存在兼容性问题。而CUDA 11.8是PyTorch 2.0.x系列经过最充分测试的版本，几乎所有fastai的examples都能100%复现。所以，我的环境搭建流程，第一步就是卸载系统自带的nvidia-cuda-toolkit，手动下载并安装CUDA 11.8 runfile，宁可牺牲一点“新”，也要保证“稳”。

3. 核心细节解析与实操要点

3.1 NVIDIA驱动与CUDA Toolkit的协同安装

这是整个环境最脆弱的一环，90%的失败都发生在这里。很多人以为装了nvidia-driver-535就万事大吉，其实不然。Ubuntu的nvidia-driver-535包里只包含驱动内核模块（nvidia.ko）和用户态库（libnvidia-ml.so），但不包含CUDA编译器（nvcc）和运行时库（libcudart.so）。这两者必须由CUDA Toolkit提供。而CUDA Toolkit的安装又高度依赖驱动版本。以RTX 4090为例，它要求驱动版本>=525，而CUDA 11.8官方支持的最高驱动版本是520，这就形成了一个矛盾。解决方案是：跳过Ubuntu仓库的驱动，直接用NVIDIA官网的.run文件安装驱动+Toolkit一体化包。

具体操作如下：

# 1. 先禁用nouveau驱动（Ubuntu默认加载，会和NVIDIA驱动冲突） echo "blacklist nouveau" | sudo tee /etc/modprobe.d/blacklist-nouveau.conf echo "options nouveau modeset=0" | sudo tee -a /etc/modprobe.d/blacklist-nouveau.conf sudo update-initramfs -u sudo reboot # 2. 重启后进入文本模式（Ctrl+Alt+F3），停止图形界面 sudo systemctl stop gdm3 # Ubuntu 22.04默认显示管理器是gdm3 # 3. 下载CUDA 11.8 runfile（注意：必须选.run格式，不要.deb） wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run # 4. 运行安装程序，关键点：取消勾选"Install NVIDIA Accelerated Graphics Driver" sudo sh cuda_11.8.0_520.61.05_linux.run --override --no-opengl-libs # 5. 安装完成后，将CUDA路径加入环境变量 echo 'export PATH=/usr/local/cuda-11.8/bin:$PATH' >> ~/.bashrc echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc source ~/.bashrc

提示：--override参数允许你在已有驱动的情况下强制安装，--no-opengl-libs避免覆盖系统OpenGL库导致桌面崩溃。最关键的一步是第4步中取消勾选驱动安装——因为我们已经用nvidia-driver-535装好了驱动，这里只需要Toolkit。如果误勾了驱动，会导致系统黑屏，只能进recovery mode重装。

3.2 Conda环境的精细化构建

我见过太多人用conda create -n fastai python=3.9然后conda activate fastai，接着pip install fastai，结果第二天发现fastai的torch.cuda.is_available()返回False。问题出在conda的channel优先级上。PyTorch官方推荐的安装命令是conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia，但如果你之前添加过-c conda-forge，conda solver可能会优先从conda-forge拉取一个不带CUDA支持的PyTorch版本。所以，我的标准流程是：

# 1. 创建干净的conda环境，显式指定python版本和channel conda create -n fastai-course python=3.9 -c defaults -c conda-forge # 2. 激活环境后，先移除所有非必要channel，只保留pytorch和nvidia conda activate fastai-course conda config --remove-key channels conda config --add channels pytorch conda config --add channels nvidia conda config --set channel_priority strict # 3. 安装PyTorch（此时conda solver会严格按pytorch channel的元数据解析依赖） conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia # 4. 验证CUDA可用性（这一步必须成功，否则后面全是空谈） python -c "import torch; print(torch.__version__); print(torch.cuda.is_available()); print(torch.cuda.device_count())" # 正常输出应为：2.0.1, True, 1（或更多，取决于GPU数量）

注意：conda config --set channel_priority strict是关键。它强制conda solver只从最高优先级的channel（这里是pytorch）找包，如果该channel没有某个依赖，就报错，而不是去低优先级channel（如defaults）找一个可能不兼容的版本。这能避免99%的“明明装了CUDA却不可用”的诡异问题。

3.3 Fastai库的源码级安装与调试支持

官方pip安装的fastai是一个纯Python包，没有附带源码注释和调试符号。当你在Jupyter里执行learn.summary()看到一堆<function>对象时，想点进去看Learner类的fit_one_cycle方法实现，却只能看到...，这就很痛苦。我的做法是：用git clone源码，再用pip install -e .进行可编辑安装。这样，你在IDE里按Ctrl+Click就能直接跳转到源码，修改任何一行代码后，Jupyter里reload一下模块就能生效。

# 1. 克隆fastai官方仓库（注意：必须用main分支，不是release分支） git clone https://github.com/fastai/fastai.git cd fastai # 2. 检查当前commit是否与PyTorch 2.0.x兼容（fastai main分支每晚CI都会测试） git log -n 5 --oneline | head -3 # 确保最近的commit message里有"test pytorch 2.0"字样 # 3. 可编辑安装（-e参数表示editable mode） pip install -e ".[dev]" # 4. 验证安装（此时import的fastai指向你的本地目录） python -c "import fastai; print(fastai.__file__)" # 输出应为：/path/to/your/fastai/fastai/__init__.py

实操心得：pip install -e ".[dev]"中的[dev]是关键。它会额外安装fastai开发所需的依赖，比如nbdev（用于构建文档）、pytest（用于运行测试）。这些工具在你后续想修改fastai源码、提交PR时必不可少。而且，[dev]里还包含了ipywidgets，这是fastai的ProgressCallback能正常显示进度条的前提。如果漏掉[dev]，你会在Jupyter里看到进度条变成一堆乱码字符。

3.4 Jupyter Notebook的性能优化配置

fastai第一章的pets数据集虽然只有37MB，但当它被DataBlock加载、aug_transforms增强、DataLoader分批时，内存占用会飙升到2GB以上。一台普通笔记本如果只有16GB内存，很容易触发Linux的swappiness机制，导致整个系统卡死。我的解决方案是三层优化：

第一层：限制Jupyter内存使用在~/.jupyter/jupyter_notebook_config.py中添加：

# 限制单个notebook kernel最大内存为4GB c.ResourceUseDisplay.mem_limit = 4 * 1024**3 # 启用内存监控面板 c.ResourceUseDisplay.track_cpu_percent = True

第二层：优化DataLoader的num_workers在notebook开头，显式设置：

# 避免默认的num_workers=0导致CPU瓶颈 from fastai.vision.all import * dls = ImageDataLoaders.from_name_re(..., num_workers=4) # 根据CPU核心数设为4或8

第三层：启用Linux的zram交换这是很多人忽略的杀手锏。zram会把一部分RAM压缩后当作swap分区，比传统硬盘swap快10倍以上。在Ubuntu 22.04上启用只需：

sudo apt install zram-config sudo systemctl enable zramswap sudo systemctl start zramswap # 验证：swapon --show 应该能看到/dev/zram0

经验总结：这三层优化叠加后，我在一台16GB内存、i7-10875H的笔记本上，能同时打开3个fastai notebook（分别跑pets、mnist、camvid），系统响应依然流畅。其中zram是质变点——没有它，只要打开第二个notebook，鼠标指针就开始间歇性卡顿；有了它，整个体验接近SSD swap的效果。

4. 实操过程与核心环节实现

4.1 从零开始的完整终端操作实录

现在，让我们把前面所有设计和细节，落实到一次真实的、可复制的终端操作中。以下是我2024年3月15日在一台全新的Ubuntu 22.04 LTS虚拟机（8核CPU，32GB RAM，1xRTX 3090）上的完整操作日志，每一行命令都经过验证，你可以逐字复制粘贴：

# Step 1: 更新系统并安装基础依赖 sudo apt update && sudo apt upgrade -y sudo apt install -y build-essential cmake git wget curl vim htop # Step 2: 安装Miniconda（比Anaconda轻量，启动更快） wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh -b -p $HOME/miniconda3 $HOME/miniconda3/bin/conda init bash source ~/.bashrc # Step 3: 创建fastai环境（按2.2节逻辑） conda create -n fastai-course python=3.9 -c defaults -c conda-forge conda activate fastai-course conda config --remove-key channels conda config --add channels pytorch conda config --add channels nvidia conda config --set channel_priority strict conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia # Step 4: 验证PyTorch CUDA（关键检查点） python -c "import torch; assert torch.cuda.is_available(), 'CUDA not available!'; print('✅ PyTorch CUDA OK')" # Step 5: 安装Jupyter及优化插件 conda install jupyter ipywidgets nodejs -c conda-forge jupyter contrib nbextension install --user jupyter nbextension enable hinterland/hinterland # Step 6: 克隆并安装fastai源码 git clone https://github.com/fastai/fastai.git cd fastai pip install -e ".[dev]" cd .. # Step 7: 下载fastai课程数据集（pets数据集） mkdir -p ~/fastai-data cd ~/fastai-data wget https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz tar -xzf oxford-iiit-pet.tgz # Step 8: 启动Jupyter（指定端口和IP，便于远程访问） jupyter notebook --ip=0.0.0.0 --port=8888 --no-browser --allow-root

提示：--allow-root是必须的，因为我们在root权限下安装了conda，Jupyter默认禁止root启动。如果你不想用root，可以在Step 2中把conda安装到普通用户目录（-p $HOME/miniconda3），然后去掉--allow-root。

4.2 在Jupyter中运行第一章核心代码的逐行解析

当你在浏览器中打开http://localhost:8888，新建一个notebook，就可以开始运行fastai第一章的代码了。但请注意，不要直接复制粘贴官方notebook的全部内容，而是按以下逻辑分步执行，每一步都验证输出：

# Cell 1: 导入核心库（验证环境） from fastai.vision.all import * import torch print(f"PyTorch version: {torch.__version__}") print(f"CUDA available: {torch.cuda.is_available()}") print(f"GPU count: {torch.cuda.device_count()}") # Cell 2: 加载数据（关键：指定path和get_items） path = Path('~/fastai-data/oxford-iiit-pet') def get_dls(bs=64): return DataBlock( blocks=(ImageBlock, CategoryBlock), get_items=get_image_files, splitter=RandomSplitter(seed=42), get_y=parent_label, item_tfms=Resize(460), batch_tfms=aug_transforms(size=224, min_scale=0.75) ).dataloaders(path, bs=bs) dls = get_dls() dls.show_batch(max_n=9, figsize=(8,8))

这段代码的难点在于get_image_files和parent_label这两个函数。get_image_files(path)会递归扫描path下的所有图片文件（.jpg, .png等），而parent_label则取每个图片文件所在目录的名字作为标签。所以，你的oxford-iiit-pet目录结构必须是：

oxford-iiit-pet/ ├── images/ │ ├── Abyssinian_1.jpg │ ├── Abyssinian_2.jpg │ └── ... │ └── yorkshire_terrier_100.jpg └── annotations/

如果目录结构不对，get_y=parent_label就会报错FileNotFoundError。我第一次就栽在这里——我把图片直接放在oxford-iiit-pet/根目录，结果parent_label试图从根目录名oxford-iiit-pet取标签，显然不存在。

# Cell 3: 构建Learner并训练（核心中的核心） learn = vision_learner(dls, resnet34, metrics=error_rate) learn.fine_tune(2)

vision_learner会自动下载resnet34的预训练权重（约87MB），首次运行会慢一些。fine_tune(2)表示先冻结backbone，只训练head层2个epoch，然后解冻全部层，再用更小的学习率训练2个epoch。这是迁移学习的标准范式。如果你看到loss值从3.5一路降到0.1，error_rate从0.3降到0.05，恭喜你，环境完全OK！

4.3 关键参数的计算与选择依据

为什么用resnet34而不是resnet50？为什么batch_size=64？为什么fine_tune(2)而不是fit(10)？这些都不是随意写的，背后有明确的计算逻辑：

Batch Size的选择：RTX 3090有24GB显存，resnet34单张图在FP16精度下约占用1.2GB显存。计算公式：max_bs = (GPU_memory - model_memory) / (image_memory * 2)，其中*2是为梯度和优化器状态预留。代入得：(24 - 1.2) / (1.2 * 2) ≈ 9.5，所以bs=8是安全值。但fastai的aug_transforms会做随机裁剪，实际显存占用略低，因此bs=64是可行的（它会自动启用梯度累积，等效于bs=8但更新更平滑）。

Learning Rate的选择：vision_learner内部调用lr_find()自动搜索最优学习率。它会从1e-7开始，指数增长到1e-1，记录每个lr对应的loss。最优lr通常是loss下降最快点的前一个点。在我的RTX 3090上，resnet34的最优lr是3e-3。fine_tune方法会自动把这个lr应用到head层，而backbone层用1/10的lr（3e-4），这是迁移学习的黄金法则——新任务的head层需要更大更新，预训练的backbone只需微调。

Epoch数的确定：fine_tune(2)中的2不是拍脑袋。它是基于pets数据集的规模（37MB，7393张图）和resnet34的收敛速度经验得出的。我做过对比实验：fine_tune(1)时，val_loss还在下降；fine_tune(3)时，val_loss开始轻微上升（过拟合迹象）。所以2是精度和效率的平衡点。

4.4 性能监控与实时调优技巧

在训练过程中，光看Jupyter的输出还不够。你需要实时监控GPU、CPU、内存的使用情况，才能判断是哪里成了瓶颈。我的标准监控组合是：

GPU监控：nvidia-smi -l 1（每秒刷新一次），重点关注Volatile GPU-Util（GPU利用率）和Memory-Usage（显存占用）。如果GPU-Util长期低于30%，说明数据加载（DataLoader）太慢，需要增加num_workers；如果Memory-Usage接近上限，说明batch_size太大，需要减小。

CPU监控：htop -C（彩色模式），按F6选择PERCENT_CPU排序，看哪个进程CPU占用最高。如果是python，说明模型计算是瓶颈；如果是python3加一堆fork子进程，说明num_workers设置过高，导致CPU调度开销过大。

I/O监控：iotop -oP（只显示实际I/O的进程），看dls.show_batch()或learn.fine_tune()时，磁盘读取速率。如果长期低于50MB/s，说明你的SSD或NVMe性能未被充分利用，可以尝试把数据集放到/dev/shm（内存盘）：

sudo mkdir -p /dev/shm/fastai-data sudo cp -r ~/fastai-data/oxford-iiit-pet /dev/shm/fastai-data/ # 然后在代码中把path改为Path('/dev/shm/fastai-data/oxford-iiit-pet')

实测数据：在NVMe SSD上，dls.show_batch()耗时1.2秒；在/dev/shm上，耗时降至0.3秒。对于需要频繁预览数据增强效果的调试阶段，这几乎是质的飞跃。

5. 常见问题与排查技巧实录

5.1 “CUDA out of memory”错误的五层排查法

这是fastai新手遇到的第一座大山。不要急着改代码，按以下顺序逐层排查：

排查层级	检查命令/方法	预期正常现象	异常表现及修复
L1：GPU显存总量	`nvidia-smi`	`Total Memory: 24220MiB`（RTX 3090）	显示`No devices were found`→ 驱动未加载，执行`sudo modprobe nvidia`
L2：PyTorch可见GPU	`python -c "import torch; print(torch.cuda.device_count())"`	输出`1`	输出`0`→ CUDA Toolkit未正确安装，检查`LD_LIBRARY_PATH`是否包含`/usr/local/cuda-11.8/lib64`
L3：单个batch显存占用	`learn.dls.one_batch()[0].shape`	输出`torch.Size([64, 3, 224, 224])`	形状异常 →`DataBlock`定义错误，检查`item_tfms`和`batch_tfms`尺寸是否匹配
L4：训练时显存峰值	`learn.model.cuda(); learn.dls.one_batch(); torch.cuda.memory_summary()`	`allocated: 1200MB`	`allocated > 20000MB`→`batch_size`过大，按4.3节公式重新计算
L5：内存泄漏	训练多个epoch后执行`torch.cuda.memory_summary()`	`allocated`值稳定	`allocated`持续增长 → 模型中有未释放的tensor，检查自定义callback是否保存了`loss`历史

独家技巧：在learn.fine_tune()前，插入torch.cuda.empty_cache()，能立即释放所有未被引用的显存。这招在我调试自定义Callback时救了无数次。

5.2 “ModuleNotFoundError: No module named 'fastai'" 的根源分析

这个错误看似简单，实则陷阱重重。它通常发生在你激活了conda环境，但Jupyter却在base环境中运行。验证方法是：在Jupyter cell中运行!which python，如果输出/home/user/miniconda3/bin/python，说明Jupyter用的是base环境；如果输出/home/user/miniconda3/envs/fastai-course/bin/python，才是正确的。

修复方案有二：

推荐：在fastai-course环境中安装ipykernel，然后注册内核：
```
conda activate fastai-course conda install ipykernel python -m ipykernel install --user --name fastai-course --display-name "Python (fastai-course)"
```
然后在Jupyter右上角Kernel菜单中，选择Change kernel → Python (fastai-course)。
备选：直接在base环境中pip install fastai，但这违背了环境隔离原则，不推荐。

5.3 数据加载缓慢的三大元凶与对策

dls.show_batch()卡住超过10秒？别怪fastai，先检查这三点：

元凶一：文件系统缓存未预热
Linux内核不会主动把整个数据集预加载到page cache。对策：在训练前，用dd命令预热：

# 把整个pets数据集读一遍到内存（不写入） dd if=~/fastai-data/oxford-iiit-pet/images/Abyssinian_1.jpg of=/dev/null bs=1M # 或者用find批量读取（更彻底） find ~/fastai-data/oxford-iiit-pet -name "*.jpg" -exec cat {} \; > /dev/null 2>&1

元凶二：ext4文件系统默认挂载选项
Ubuntu默认用relatime挂载，对小文件读取不友好。临时提升：sudo mount -o remount,noatime /。永久提升：编辑/etc/fstab，在对应分区行末尾加,noatime。

元凶三：Jupyter的async I/O阻塞
Jupyter的notebook server是单线程的，如果show_batch()触发了大量磁盘I/O，整个UI会卡住。对策：在show_batch()前加%autoawait魔法命令，启用异步支持：

%autoawait dls.show_batch(max_n=9)

5.4 Fastai与PyTorch版本不兼容的终极诊断表

PyTorch版本	Fastai版本	兼容性	典型错误	解决方案
1.13.x	2.7.x	✅ 完全兼容	无	无需操作
2.0.0	2.7.x	⚠️ 部分兼容	`AttributeError: 'Tensor' object has no attribute 'requires_grad_'`	升级fastai到2.7.12+
2.1.0	2.7.x	❌ 不兼容	`TypeError: forward() got an unexpected keyword argument 'output_attentions'`	降级PyTorch到2.0.1，或升级fastai到2.7.15+
2.2.0	2.7.x	❌ 不兼容	`ImportError: cannot import name 'is_tensor' from 'torch._six'`	必须升级fastai到2.7.18+

我的建议：永远用conda install pytorch=2.0.1 torchvision=0.15.2 torchaudio=2.0.2 pytorch-cuda=11.8 -c pytorch -c nvidia锁定PyTorch 2.0.1，这是fastai 2.7.x系列经过最全面测试的版本，稳定性远超更新的2.1.x。

6. 实战扩展：从第一章到可交付项目的四步跃迁

跑通第一章只是起点。真正的价值在于，如何把这种能力迁移到你自己的项目中。我总结了一个四步跃迁法，每一步都对应一个真实场景：

第一步：替换数据集（1小时）
把你自己的图像数据按pets格式组织：/myproject/images/cat/1.jpg,/myproject/images/dog/2.jpg。然后修改get_dls()中的path参数。注意：get_image_files默认只识别.jpg,.jpeg,.png,.ppm,.bmp,.pgm,.tif,.tiff,.webp，如果你的数据是.raw或.dcm，需要自定义get_items函数。

第二步：更换模型架构（30分钟）
vision_learner支持所有timm库的模型。比如换用轻量级mobilenetv3_large_100：

from timm import create_model model = create_model('mobilenetv3_large_100', pretrained=True, num_classes=dls.c) learn = Learner(dls, model, metrics=error_rate)

timm模型的优势是，它内置了针对移动端优化的算子，在Jetson AGX Orin上推理速度比resnet快3倍。

第三步：集成自定义指标（2小时）
除了error_rate，你可能需要F1Score或Dice。fastai的Metric接口非常灵活：

from sklearn.metrics import f1_score class F1ScorePerClass(Metric): def __init__(self, average='macro'): self.average = average def reset(self): self.preds,self.targs = [],[] def accumulate(self, learn): pred,targ = learn.pred.argmax(dim=-1), learn.yb[0] self.preds.append(pred.cpu()) self.targs.append(targ.cpu()) @property def value(self): p = torch.cat(self.preds); t = torch.cat(self.targs) return f1_score(t, p, average=self.average) learn = vision_learner(dls, resnet34, metrics=[error_rate, F1ScorePerClass()])

第四步：部署为API服务（4小时）
用fastapi把训练好的模型包装成HTTP服务：

from fastapi import FastAPI, UploadFile, File from fastai.vision.all import * import uvicorn app = FastAPI() learn = load_learner('export.pkl') # 先用learn.export()保存 @app.post("/predict") async def predict(file: UploadFile = File(...)): img = PILImage.create(await file.read()) pred,pred_idx,probs = learn.predict(img) return {"prediction": pred, "confidence": probs[pred_idx].item()} if __name__ == "__main__": uvicorn.run(app, host="0.0.0.0:8000", port=8000)

然后curl -F "file=@cat.jpg" http://localhost:8000/predict就能得到JSON预测结果。

最后分享一个小技巧：在learn.fine_tune()后，立刻执行learn.export('pets-resnet34.pkl')，这个.pkl文件包含了模型权重、数据处理器（dls)和所有预处理逻辑，大小只有87MB，比整个PyTorch环境轻便得多。把它拷贝到另一台Linux机器上，只需load_learner('pets-resnet34.pkl')，就能直接做预测，完全不需要安装fastai或PyTorch——这才是真正可交付的成果。

查看全文

http://www.cnnetsun.cn/news/3122944.html