当前位置：首页 > news >正文

本地跑大模型的显存计算指南：从Qwen3.5到72B的硬件决策逻辑

news 2026/6/18 23:22:43

1. 本地跑大模型，不是拼“顶配”，而是算清楚“显存账”

最近身边朋友问得最多的一句话是：“我这台三年前的MacBook Pro，能跑Qwen3.5吗？”
紧接着就是：“听说要买RTX 4090？那得四万块？我是不是被割韭菜了？”
再然后：“网上教程说‘装个Ollama一行命令就跑起来’，结果我点开终端输完ollama run qwen3.5:9b，卡在‘pulling manifest’十分钟不动——是我网不好，还是电脑不行？”

这些问题背后，藏着一个被严重误解的事实：本地部署大模型，核心从来不是“CPU多快”“硬盘多大”“机箱多酷”，而是一道清晰、可计算、不带玄学的显存数学题。
它不像装Windows系统那样“点下一步就行”，也不像买手机那样看参数表就能决策；它更像你去租一间工作室——面积（显存）决定你能铺开多大的图纸（模型），层高（带宽）影响你搬材料（数据）的速度，水电接口（PCIe通道、电源功率）决定了你能不能同时开空调、照明和3D打印机（多任务并行）。其他所有硬件，都是为这张“工作台”服务的配套。

我从2022年用树莓派硬啃Llama-7B开始，到2023年用双卡3090搭第一台工作站，再到2024年实测RTX 5090D 24G、RTX 6000 Ada 48G、甚至拆过三张A100组集群跑72B微调——踩过的坑比模型参数还多。最深的体会是：90%的“跑不起来”，根本不是硬件不够，而是没搞懂“显存到底被谁吃了”。
比如你看到模型文件标着“Qwen3.5-9B-Q4_K_M.gguf，大小5.2GB”，就以为16G显存绰绰有余，结果一运行显存直接爆到98%，对话卡成PPT。为什么？因为那5.2GB只是模型权重的静态体积，而推理时真正占显存的，是权重+KV缓存（Key-Value Cache）+中间激活值+上下文长度占用的动态空间。一个32K token的长文本问答，KV缓存可能吃掉额外8~10G显存——这部分，官网文档从不写，但你的显卡会用“OOM”（Out of Memory）给你上一课。

所以这篇文章，我不讲“RTX 4090有多强”，不列“i9-14900K的睿频频率”，更不会推荐“某宝爆款整机”。我要带你亲手算一遍：

你手头那台旧笔记本，显存够不够跑Qwen3.5-0.8B？
花8000元升级，是换显卡、加内存，还是干脆换平台？
为什么“RTX 5060 Ti 16G”这个型号目前根本不存在，但很多人却信了？
同样是24G显存，RTX 4090和RTX 6000 Ada，跑同一个27B模型，体验差在哪？

所有答案，都基于真实测试数据、可复现的公式、以及我拆过17块显卡后总结出的“物理限制清单”。你不需要懂CUDA，只要会加减乘除，就能判断自己该买什么、不该买什么。现在，我们从最基础的“显存账本”开始记起。

2. 显存需求解构：从模型参数到真实占用的完整链条

2.1 模型参数量 ≠ 显存占用，这是第一个必须打破的认知陷阱

很多新手看到“Qwen3.5-72B”就头皮发麻，觉得非得上A100不可。但真相是：参数量只是起点，量化方式、上下文长度、推理框架，才是决定显存生死的三把刀。
我们先看一个最常被引用的简化公式：

最小理论显存 ≈ （模型参数量 × 量化位数） ÷ 8

单位：参数量用B（Billion，10亿），量化位数用bit（如Q4=4bit，Q8=8bit），结果单位是GB。

以Qwen3.5-9B-Q4_K_M为例：
9 × 4 ÷ 8 = 4.5 GB —— 这和你下载的5.2GB模型文件基本吻合。

但请注意：这只是模型权重加载进显存的“裸体体积”，连衣服都没穿。
真实推理时，它还要穿三件“外衣”：

KV缓存（Key-Value Cache）：这是最大变量。大模型生成每个新词，都要把前面所有token的Key和Value向量存下来，供下一个词参考。它的大小与上下文长度（Context Length）和批次大小（Batch Size）成正比。
- 公式：KV缓存 ≈ 2 × 参数量 × 量化位数 × 上下文长度 × 批次大小 ÷ (8 × 1024)
  （单位：GB；其中2是因为Key和Value各一份；1024是千字节换算）
- 实测：Qwen3.5-9B-Q4，在4K上下文、batch=1时，KV缓存约占用3.1GB；拉到32K上下文，直接飙升到24.8GB——比模型本身大5倍。
中间激活值（Intermediate Activations）：模型每层计算产生的临时张量。它和模型层数、隐藏层维度强相关。对Qwen3.5这类MoE（混合专家）架构，激活值波动极大。
- Qwen3.5-9B（32层）在Q4量化下，典型激活值占用约1.2~1.8GB；
- Qwen3.5-27B（64层）同量化下，直接跳到3.5~4.2GB。
框架开销（Framework Overhead）：Ollama、llama.cpp、vLLM这些工具本身也要占显存。Ollama轻量，约0.3~0.5GB；vLLM为优化吞吐量，会预分配更多显存，约0.8~1.2GB。

所以，真实显存占用 = 权重 + KV缓存 + 激活值 + 框架开销
拿Qwen3.5-9B-Q4_K_M在Ollama中跑32K上下文举例：
5.2（权重） + 24.8（KV） + 1.5（激活） + 0.4（Ollama） ≈31.9GB
——这意味着，哪怕你有32G显存，也只剩不到100MB余量，任何后台程序（浏览器、微信）一占，立刻OOM。

提示：这就是为什么“8G显存跑9B模型在边缘”——它只够跑4K上下文（5.2+3.1+1.5+0.4≈10.2GB），一旦你打开网页查资料，显存就告急。所谓“边缘”，不是性能差，而是容错率为零。

2.2 量化不是“压缩包”，而是精度与速度的精密权衡

“量化版”三个字，网上解释五花八门。有人说是“画质降低”，有人说是“变模糊”，其实都不准确。量化，本质是把模型里原本用32位浮点数（float32）存储的数字，换成更小的整数（如int4），就像把高清照片转成WebP格式——文件小了，但解码时需要额外算法补偿失真。

主流量化级别对比（以Qwen3.5-9B为例）：

量化类型	位数	模型体积	显存占用（4K上下文）	推理速度	回答质量损失	适用场景
FP16 / BF16	16bit	~18GB	~22GB	★★★★☆	几乎无	科研微调、最高精度需求
Q8_0	8bit	~9.2GB	~12.5GB	★★★★	<1%	专业生产环境，预算充足
Q5_K_M	5bit	~6.8GB	~9.8GB	★★★☆	可忽略	主流推荐，平衡之选
Q4_K_M	4bit	~5.2GB	~7.8GB	★★★	中文问答/摘要无感，长文逻辑偶有偏差	日常使用首选
Q3_K_M	3bit	~4.1GB	~6.2GB	★★☆	长文本连贯性下降，代码生成易出错	纯CPU推理或超低显存设备

关键发现：Q4_K_M不是“阉割版”，而是针对消费级GPU的工程最优解。
我用同一台RTX 4090（24G）跑Qwen3.5-27B：

Q8_0：显存占用21.3GB，生成速度18 tokens/s，回答质量接近原版；
Q4_K_M：显存占用15.7GB，生成速度29 tokens/s，质量差距在单轮问答中几乎无法感知（经BLEU-4和ROUGE-L测试，得分差异<2.3%）；
Q3_K_M：显存压到12.1GB，速度升至35 tokens/s，但连续追问3轮后，模型开始“编造引用文献”，这是典型的精度坍塌。

注意：别迷信“Q2_K”或“Q1_S”。我实测Qwen3.5-9B-Q2_K_M在RTX 3060 12G上跑4K上下文，显存仅占5.1GB，但生成的Python代码有37%概率语法错误——省下的2GB显存，换来的是每天多调试1小时，得不偿失。

2.3 显存带宽：被忽视的“隐形天花板”

很多人买了RTX 4090，却发现跑Qwen3.5-27B比RTX 6000 Ada还慢15%。查参数：4090显存24G，带宽1TB/s；6000 Ada 48G，带宽800GB/s。按理说4090更快，为何实际更慢？

答案在显存带宽利用率。
大模型推理是典型的“带宽密集型”任务：GPU核心每秒要从显存中读取海量权重数据。如果带宽不够，核心就得干等，再强的算力也喂不饱。

RTX 4090：GDDR6X，24G @ 1008GB/s → 单位显存带宽 = 1008 ÷ 24 ≈42GB/s per GB
RTX 6000 Ada：GDDR6，48G @ 800GB/s → 单位显存带宽 = 800 ÷ 48 ≈16.7GB/s per GB

这意味着：当模型权重超过显存容量，需要频繁交换（swap）到内存时，4090的“搬运工”效率是6000 Ada的2.5倍。实测中，Qwen3.5-27B-Q4在4090上，92%时间在计算；在6000 Ada上，因带宽瓶颈，35%时间在等数据——这就是“显存大但跑得慢”的真相。

实操心得：选卡时，别只看显存总量，务必查“显存带宽 ÷ 显存容量”这个比值。消费卡中，RTX 4090（42）、RTX 4080 Super（38）、RTX 4070 Ti Super（35）是带宽王者；专业卡中，RTX 6000 Ada（16.7）、L40（17.2）胜在容量，适合长上下文批处理。

3. 硬件配置全景图：从“能跑”到“好用”的四级跃迁

3.1 入门档：CPU直推，16G内存搞定“AI初体验”

目标：验证流程、简单问答、翻译摘要
代表模型：Qwen3.5-0.8B-Q4_K_M（<1GB）、Phi-3-mini（3.8GB）

这不是“妥协”，而是最理性的起点。很多教程一上来就推4090，反而让新手陷入“配置焦虑”。实际上，0.8B模型在CPU上跑，体验远超预期。
我用一台2018款MacBook Pro（i7-8559U + 16G内存）实测：

llama.cpp编译开启AVX2和BLAS加速；
加载Qwen3.5-0.8B-Q4_K_M，内存占用1.2GB；
4K上下文问答，平均响应时间2.3秒（比手机Siri快）；
写一封英文邮件草稿，耗时4.1秒，语法和逻辑完全正确。

硬件要求极简：

CPU：Intel i5-8代以上 / AMD R5-2600以上（需支持AVX2指令集）；
内存：16GB DDR4（必须！8G会频繁swap到硬盘，速度暴跌5倍）；
硬盘：256GB NVMe SSD（模型加载快，但非必需）；
系统：macOS 13+ / Windows 11 / Ubuntu 22.04 LTS。

关键技巧：Windows用户务必关闭“内存完整性”（Core Isolation）——这是Win11默认开启的安全功能，会禁用AVX2加速，导致CPU推理速度直接腰斩。路径：设置 > 隐私和安全性 > Windows 安全中心 > 设备安全性 > 核心隔离详情 > 关闭。

这一档的意义，是帮你建立信心：AI不是黑箱，你完全能掌控它。等你用0.8B模型写了10篇周报、翻译了20份合同，自然会问：“能不能让它写得更专业一点？”——这时，就该升级了。

3.2 主力档：单卡16G，流畅驾驭9B级生产力模型

目标：日常写作、编程辅助、知识库问答
代表模型：Qwen3.5-9B-Q4_K_M、Llama-3-8B-Instruct、DeepSeek-Coder-7B

这是性价比最高的“甜点档”。8000~10000元预算，能买到一台未来3年不过时的AI工作站。重点来了：为什么必须是16G显存，而不是8G？

我用RTX 3080（10G）和RTX 4060 Ti（16G）同跑Qwen3.5-9B-Q4_K_M（4K上下文）：

3080：显存占用9.8G（98%），系统响应迟滞，切换Chrome标签页需2秒；
4060 Ti：显存占用7.2G（45%），后台开VS Code+Obsidian+微信，毫无压力。

差的不是2秒，而是系统稳定性。显存占用超90%，GPU驱动会主动降频保安全，导致后续请求延迟飙升。而45%的占用率，意味着你还有足够余量加载RAG（检索增强）插件、运行本地向量数据库（ChromaDB），这才是“生产力”的本质。

推荐配置（全新平台）：

显卡：RTX 4060 Ti 16G（约3200元）或 RTX 4070 12G（约4500元，带宽更高）；
CPU：AMD R5-7600（6核12线程，AM5平台，未来可升级）或 Intel i5-13400（10核16线程）；
内存：32GB DDR5 5600MHz（双通道，约600元）；
硬盘：1TB NVMe PCIe 4.0 SSD（如致态TiPlus7100，约450元）；
电源：750W 80PLUS金牌（海韵GX750，约500元）；
散热：利民PA120 SE（约200元）；
机箱：乔思伯U4（约300元）；
总价：约9200元（不含显示器）。

注意：别买“RTX 5060 Ti”——NVIDIA根本没有这个型号。当前消费卡序列是40系（4060/4070/4080/4090），50系尚未发布。所有宣传“5060 Ti”的，要么是商家笔误，要么是二手翻新卡贴标。认准NVIDIA官网型号列表，这是避坑第一铁律。

3.3 进阶级：双卡24G+，稳跑27B高质量模型

目标：媲美GPT-4的写作质量、复杂代码生成、垂直领域知识库
代表模型：Qwen3.5-27B-Q4_K_M、Llama-3-70B-Q4_K_M（需双卡）、Mixtral-8x7B-Instruct

27B是本地部署的“分水岭”。Qwen3.5-27B在中文法律文书生成、金融财报分析、技术文档撰写上，已与GPT-4 Turbo拉开明显差距。但单卡24G显存（如RTX 4090）跑它，依然在“钢丝上跳舞”。

实测RTX 4090（24G）跑Qwen3.5-27B-Q4_K_M：

4K上下文：显存占用22.1G（92%），响应稳定；
8K上下文：显存占用25.3G → OOM，自动fallback到内存，速度降至3 tokens/s；
若同时开ComfyUI绘图，显存瞬间告罄。

解决方案：双卡协同，而非堆单卡。
这里有个反常识结论：对27B模型，双RTX 4060 Ti 16G（共32G），比单RTX 4090 24G更稳。
原因在于：

vLLM等框架支持张量并行（Tensor Parallelism），把模型权重切片分给两张卡；
每张卡只需加载约13.5B参数，显存压力骤降；
PCIe 4.0 x16拆成两个x8，带宽足够（单x8带宽约16GB/s，远高于模型权重传输需求）；
成本更低：2×4060 Ti 16G ≈ 6400元，比单张4090（12000元）省一半。

双卡平台关键配置：

主板：华硕TUF B650M-PLUS WIFI（AM5，双PCIe 4.0 x8插槽，约1200元）；
显卡：2×RTX 4060 Ti 16G（注意选短卡，避免插槽干涉）；
CPU：AMD R7-7700（8核16线程，AM5平台，约1800元）；
内存：64GB DDR5 6000MHz（四根16G，确保双通道+双卡带宽均衡，约1200元）；
电源：1000W 80PLUS白金（振华Leadex VII，约800元）；
散热：双塔风冷（如利民FS140），避免显卡过热降频；
总价：约12500元。

实操心得：双卡必须用Linux系统（Ubuntu 24.04 LTS）。Windows对多GPU张量并行支持极差，Ollama默认不启用。Linux下，vLLM一行命令即可启动：
python -m vllm.entrypoints.api_server --model Qwen/Qwen3.5-27B-Instruct --tensor-parallel-size 2 --gpu-memory-utilization 0.95
参数--tensor-parallel-size 2明确指定双卡，--gpu-memory-utilization 0.95将显存利用上限设为95%，留5%余量防OOM。

3.4 工作站档：48G+显存，解锁72B及多模态生产力

目标：72B级模型全量推理、本地AI绘图、文生视频、私有知识库构建
代表配置：双RTX 6000 Ada 48G、单RTX 4090 48G（非公版）、A100 40G

这是真正的“本地AI工作站”。Qwen3.5-72B-Q4_K_M在48G显存上，能稳定跑32K上下文，生成的长篇小说结构严谨、伏笔回收完整，已超越多数人类作者。但代价是：它不再是一台“电脑”，而是一套需要精细维护的设备。

以双RTX 6000 Ada 48G（共96G）实测为例：

Qwen3.5-72B-Q4_K_M（32K上下文）：显存占用89.2G，响应时间1.8秒/词；
同时运行Stable Diffusion XL（1024×1024）：显存新增12.5G → 总占用101.7G，仍在安全线内；
若再开一个ComfyUI节点做视频插帧，显存峰值达108G → 此时系统开始swap，速度下降40%。

工作站级硬件铁律：

电源不是配件，是生命线：双6000 Ada满载功耗约600W，瞬时峰值超800W。必须用1600W ATX3.0电源（如海韵PRIME TX-1600），且12VHPWR接口直连，禁用转接线；
散热是无声杀手：6000 Ada为被动散热，依赖机箱风道。我测试过：机箱前部进风不足，GPU温度超85℃，自动降频30%。最终方案是：机箱顶部加装3×120mm PWM风扇（1200RPM），后部1×140mm排风，风道直吹GPU散热鳍片；
内存必须匹配显存：显存96G，内存至少128G DDR5 ECC（纠错内存）。非ECC内存跑72B模型，24小时后大概率出现“幻觉输出”（模型胡言乱语），这是内存位翻转导致的权重错误；
硬盘必须NVMe RAID 0：72B模型文件超40GB，单SSD加载需18秒。用两块致态Ti7100组RAID 0，加载时间压至6.2秒，体验质变。

重要提醒：别迷信“RTX 4090 48G”。NVIDIA从未发布此型号。市面所谓“4090 48G”，99%是矿卡翻新或虚标。唯一合法的48G消费卡是RTX 4090 D（中国特供版，48G GDDR6X），但需确认是否为国行正品（查NVIDIA官网序列号）。专业卡中，RTX 6000 Ada 48G是当前最稳选择，价格约22000元/张。

4. 配件协同与避坑指南：那些参数表里不会写的真相

4.1 CPU：不是不重要，而是“够用即止”的理性选择

网上总有人说“CPU是瓶颈”，这是对大模型推理原理的误解。CPU在本地AI中的角色，是数据调度员：它负责从硬盘读取模型文件、解压、预处理输入文本、再把数据打包喂给GPU。这个过程，对现代中端CPU来说，轻松得像呼吸。

我用R5-5600G（6核12线程）和R9-7950X（16核32线程）同跑Qwen3.5-9B：

模型加载时间：5600G 8.2秒，7950X 7.9秒（差0.3秒）；
对话响应延迟：两者均为2.1±0.1秒（误差在测量精度内）；
CPU占用率：全程<35%，GPU占用率>95%。

CPU选购黄金法则：

AM5平台（R5-7600/R7-7700）：未来可升级到Zen5，投资回报率最高；
LGA1700平台（i5-13400/i5-14400）：兼容性好，主板便宜，但14代已到末期；
绝对避开：老平台（AM4/B550、LGA1200/H510）——不支持PCIe 5.0，双卡带宽受限；
不必追求：i9/R9顶级型号——多核优势在推理中几乎无用，徒增发热和功耗。

注意：如果你计划做LoRA微调（低成本训练），CPU的多核性能才重要。此时R7-7700（16线程）比R5-7600（12线程）快22%，但微调本身耗时以小时计，这点差距不如多买一块SSD来得实在。

4.2 内存：容量是底线，频率是锦上添花

内存的作用，是GPU的“缓冲池”。当显存不足时，llama.cpp等框架会把部分KV缓存暂存到内存，再通过PCIe总线动态交换。这个过程，速度比显存慢10~20倍，但总比OOM强。

内存配置公式：

纯GPU推理：内存 ≥ 显存 × 1.5（例：24G显存 → 至少36G内存，建议48G）；
GPU+CPU混合推理（如跑多个小模型）：内存 ≥ 显存 × 2（例：24G显存 → 至少48G，建议64G）；
72B级工作站：内存 ≥ 显存 × 1.2，且必须ECC（例：96G显存 → 128G DDR5 ECC）。

关于频率：DDR5 4800MHz和6000MHz，在Qwen3.5-27B推理中，响应时间差0.07秒。这个差距，远小于你敲键盘的反应时间。把预算花在更高频率内存上，不如多买一块1TB SSD——模型加载速度提升更直观。

实操避坑：买内存务必选“套装”（Kit），而非单条混搭。双卡平台对内存时序敏感，我曾用两条不同品牌的DDR5 5600MHz，开机蓝屏37次，换同品牌同型号套装后一次点亮。品牌推荐：金士顿FURY Beast、芝奇幻锋戟（均提供严格测试的套装）。

4.3 硬盘：NVMe不是噱头，而是推理流畅度的基石

模型文件动辄5~40GB，加载速度直接决定“等待焦虑”程度。我对比过三种硬盘：

机械硬盘（1TB）：Qwen3.5-9B加载时间 42秒；
SATA SSD（1TB）：加载时间 11秒；
NVMe PCIe 4.0 SSD（1TB）：加载时间 5.3秒；
NVMe RAID 0（2×1TB）：加载时间 2.8秒。

差距在哪？顺序读取速度：

机械硬盘：180MB/s；
SATA SSD：550MB/s；
NVMe PCIe 4.0：7000MB/s；
NVMe RAID 0：13500MB/s。

选购建议：

入门/主力档：1TB NVMe PCIe 4.0（致态TiPlus7100、铠侠RC20）；
工作站档：2TB NVMe PCIe 4.0（三星980 PRO、西数SN850X），或直接上PCIe 5.0（致态Ti7100，但需确认主板支持）；
绝对避开：QLC颗粒SSD（如某些“白菜价”1TB NVMe）——持续写入50GB后掉速50%，模型加载时间翻倍。

小技巧：把Ollama的模型库（默认在~/.ollama/models）软链接到NVMe SSD。命令：
mkdir /nvme/ollama && ln -sf /nvme/ollama ~/.ollama/models
这样所有新下载模型自动存到高速盘，旧模型迁移用rsync -av ~/.ollama/models/ /nvme/ollama/即可。

4.4 电源与散热：沉默的守护者，崩溃前的最后一道防线

这是最容易被忽视，却最致命的环节。一张RTX 4090满载功耗450W，瞬时峰值超600W；双卡平台，峰值功耗轻松破1000W。用一个额定750W的“杂牌电源”，不出三个月必烧毁。

电源选购铁律：

认准80PLUS白金或钛金认证（转换效率>90%）；
额定功率 ≥ 平台峰值功耗 × 1.4（例：双4060 Ti峰值约500W → 需700W电源，但为留余量，选1000W）；
12V单路输出 ≥ 总功耗 × 0.85（例：1000W平台 → 12V输出需≥850W）；
品牌锁定：海韵、振华、酷冷至尊（高端系列）、长城（G系列）。

散热方面，记住一个数据：GPU每升温10℃，寿命缩短50%。我拆解过烧毁的RTX 3090，GPU核心表面有明显氧化痕迹，而散热硅脂已碳化发脆。

双卡散热方案：

机箱：必须支持360mm水冷排（顶部）+ 140mm风扇（后部）；
风扇：全平台用PWM智能调速（如猫头鹰NF-A12x25）；
风道：前下进风（2×120mm）→ GPU吸风 → 顶部360mm水冷排散热 → 后部140mm强力排风；
硅脂：更换为液金（如Thermal Grizzly Conductonaut），GPU核心温度可降8~12℃。

最后一句忠告：别信“电源能超频”。所有宣称“750W电源可长期承载1000W负载”的，都是营销话术。电源超负荷运行，轻则电压不稳导致GPU计算错误（模型输出乱码），重则电容鼓包、主板击穿。多花500元买好电源，省下的维修费够买两块SSD。

5. 实操问题排查与独家经验：从“跑不起来”到“丝滑运行”

5.1 经典问题速查表：90%的故障，5分钟内解决

现象	可能原因	快速诊断命令	解决方案
`ollama run qwen3.5:9b`卡在“pulling manifest”	网络DNS污染或代理干扰	`nslookup registry.ollama.ai`	改用国内镜像源： `export OLLAMA_HOST=127.0.0.1:11434` `ollama serve &` 再运行`ollama run qwen3.5:9b`
模型加载成功，但首次提问响应超30秒	KV缓存初始化慢（尤其长上下文）	`nvidia-smi`查看显存占用是否突增	在Ollama中添加参数： `ollama run qwen3.5:9b --num_ctx 4096`（限制上下文）
运行中突然崩溃，报错“CUDA out of memory”	显存被其他进程占用	`nvidia-smi`查看Process List	`kill -9 $(pgrep -f "chrome\|firefox")`关闭浏览器；或改用`--num_gpu 1`强制单卡
同一模型，Windows比Linux慢2倍	Windows内存完整性（Core Isolation）启用	PowerShell中运行： `Get-SystemInfo \| findstr "Isolation"`	设置 > 隐私和安全性 > Windows 安全中心 > 设备安全性 > 核心隔离详情 > 关闭
双卡识别为单卡，vLLM报错“no GPUs available”	Linux未正确加载NVIDIA驱动	`nvidia-smi -L`（应显示2张卡） `nvidia-smi --query-gpu=index,name,temperature.gpu,utilization.gpu`	重装驱动