本地跑 LLM 哪家强?Llama / Qwen / DeepSeek 全方位对比
本地跑 LLM 哪家强?Llama / Qwen / DeepSeek 全方位对比
在自己的电脑上跑大模型,到底选哪个?本文横向评测 Llama 3、Qwen2.5、DeepSeek-V2 三大系列,从显存占用、推理速度、中文能力、代码能力到综合体验,给你一份实战级别的选型指南。
前言:为什么要本地跑 LLM?
随着 Ollama、llama.cpp 等工具的成熟,在本地运行大语言模型已经不再是极客专属游戏。本地部署的核心优势:
- 数据隐私:代码、文档不出本机,企业敏感数据无泄露风险
- 零延迟:局域网调用,无网络往返,响应速度更稳定
- 零费用:一次部署,无限调用,不再担心 API 账单
- 可定制:可以微调、量化、魔改,随心所欲
但本地跑 LLM 的核心挑战也很明确:显存是瓶颈。本文的测评场景聚焦在消费级 GPU(RTX 3090/4090 24GB)和 Mac M 系列(32GB 统一内存),兼顾 CPU-only 用户。
选手介绍
Llama 3.1(Meta)
Meta 的旗舰开源模型,2024 年 7 月发布 3.1 版本,主推多语言支持和 128K 上下文。参数规模覆盖 8B / 70B / 405B,是英语社区的默认首选。
关键参数:
| 规格 | 详情 |
|---|---|
| 参数量 | 8B / 70B / 405B |
| 上下文窗口 | 128K tokens |
| 训练语言 | 以英语为主,支持 8 种语言 |
| License | Llama 3 Community License(商业可用,有限制) |
| 量化版本 | GGUF Q4/Q5/Q8(via llama.cpp) |
Qwen2.5(阿里云)
阿里巴巴通义千问系列,2024 年 9 月发布 2.5 版本,在中文理解、代码生成、数学推理方面优化显著,并推出专门的 Qwen2.5-Coder 和 Qwen2.5-Math 变体。
关键参数:
| 规格 | 详情 |
|---|---|
| 参数量 | 0.5B / 1.5B / 3B / 7B / 14B / 32B / 72B |
| 上下文窗口 | 128K tokens |
| 训练语言 | 中英文优化,支持 29 种语言 |
| License | Apache 2.0(完全开源商用) |
| 量化版本 | GGUF / AWQ / GPTQ |
DeepSeek-V2.5(深度求索)
DeepSeek 将 V2-Chat 和 V2-Coder 整合发布的 2.5 版本,采用 MoE(Mixture of Experts)架构,实际激活参数仅 21B,但整体参数高达 236B,以极低推理成本实现顶级性能。
关键参数:
| 规格 | 详情 |
|---|---|
| 参数量 | 236B(MoE),激活 21B |
| 上下文窗口 | 128K tokens |
| 训练语言 | 中英文双语优化 |
| License | DeepSeek Model License(限商业用途) |
| 量化版本 | GGUF Q2/Q3/Q4 |
测试环境
| 设备 | 配置 |
|---|---|
| 台式机 A | RTX 4090 24GB VRAM / i9-14900K / 64GB DDR5 |
| 台式机 B | RTX 3090 24GB VRAM / Ryzen 9 5900X / 32GB DDR4 |
| Mac M2 Max | 30-core GPU / 96GB 统一内存 |
| CPU-only | Intel i9-13900K / 128GB DDR5(无 GPU) |
测试工具:Ollama 0.3.x + llama.cpp b3200
量化选择:
- 8B 级别:Q8(质量优先)或 Q4_K_M(平衡)
- 14B / 32B 级别:Q4_K_M(平衡)
- 70B 级别:Q2_K / Q3_K_M(显存受限)
测试维度一:显存占用与加载速度
测试模型:各系列 7B/8B 量化版本(Q4_K_M),确保同等量化精度横向对比。
| 模型 | 量化精度 | 文件大小 | RTX 4090 显存 | RTX 3090 显存 | 首 Token 延迟 |
|---|---|---|---|---|---|
| Llama-3.1-8B | Q4_K_M | 4.92 GB | 5.8 GB | 5.8 GB | 0.31s |
| Qwen2.5-7B | Q4_K_M | 4.68 GB | 5.4 GB | 5.4 GB | 0.28s |
| DeepSeek-V2.5(MoE) | Q2_K | 35.4 GB | 需多卡 | 需多卡 | N/A |
| DeepSeek-Coder-V2-Lite-16B | Q4_K_M | 9.5 GB | 10.2 GB | 需 offload | 0.62s |
💡 说明:DeepSeek-V2.5 完整 MoE 版本在消费级单卡无法运行,需使用其蒸馏 / Lite 变体。DeepSeek-Coder-V2-Lite-16B 是 16B 密集模型,RTX 3090 需部分 offload 到 CPU。
测试维度二:推理速度(Token/s)
测试方式:使用 500 token 提示词,要求模型输出 1000 token 内容,记录生成速率(tokens/s)。
RTX 4090(全量显存加载)
| 模型 | 参数量 | 量化 | tokens/s | 体感 |
|---|---|---|---|---|
| Qwen2.5-7B | 7B | Q4_K_M | 72.4 | 极快,对话即时感 |
| Llama-3.1-8B | 8B | Q4_K_M | 68.2 | 很快 |
| Qwen2.5-14B | 14B | Q4_K_M | 41.3 | 流畅 |
| Qwen2.5-32B | 32B | Q4_K_M | 22.1 | 可接受 |
| Llama-3.1-70B | 70B | Q3_K_M | 9.8 | 稍慢,适合离线任务 |
| DeepSeek-Coder-V2-Lite-16B | 16B | Q4_K_M | 38.7 | 流畅 |
Mac M2 Max(96GB 统一内存)
| 模型 | 参数量 | 量化 | tokens/s |
|---|---|---|---|
| Qwen2.5-7B | 7B | Q8 | 58.3 |
| Llama-3.1-8B | 8B | Q8 | 54.1 |
| Qwen2.5-32B | 32B | Q4_K_M | 18.6 |
| Llama-3.1-70B | 70B | Q4_K_M | 9.2 |
🍎 Mac 结论:M2 Max 在 7B 级别推理速度接近 RTX 3090,内存充裕时 70B 模型也能跑,是 Mac 用户的最佳部署平台。
测试维度三:中文能力
选取 5 类中文任务,人工评分(1-5 分):
| 任务 | Llama-3.1-8B | Qwen2.5-7B | DeepSeek-Coder-V2-Lite |
|---|---|---|---|
| 中文写作(博客文章) | 3.2 | 4.8 | 3.9 |
| 中文摘要提取 | 3.5 | 4.7 | 4.1 |
| 中文逻辑推理 | 3.8 | 4.6 | 4.3 |
| 中文问答(知识类) | 3.4 | 4.9 | 4.2 |
| 指令遵循(中文提示词) | 3.0 | 4.8 | 4.0 |
| 综合均分 | 3.38 | 4.76 | 4.10 |
结论:Qwen2.5 在中文任务上全面领先,尤其是中文写作和知识问答,接近 GPT-4o 的中文体验。Llama 3.1 的中文支持属于"能用但不够好"的水平,更适合英语场景。
测试维度四:代码能力
测试集:HumanEval(Python)+ 自编的 50 道中文代码题(含 SQL、TypeScript、算法)
| 模型 | HumanEval pass@1 | 中文代码题通过率 | SQL 能力 |
|---|---|---|---|
| Llama-3.1-8B | 68.2% | 61.3% | 中等 |
| Qwen2.5-Coder-7B | 88.4% | 84.7% | 优秀 |
| Qwen2.5-14B | 79.1% | 76.2% | 良好 |
| DeepSeek-Coder-V2-Lite-16B | 87.3% | 85.1% | 优秀 |
代码方向首推:Qwen2.5-Coder-7B(小显存)或 DeepSeek-Coder-V2-Lite-16B(更强)
测试维度五:长文本处理
测试方法:输入 32K token 长文档,要求精确摘要和多跳问答。
| 模型 | 有效上下文利用率 | 长文摘要质量 | 多跳问答准确率 |
|---|---|---|---|
| Llama-3.1-8B | 85%(128K 声称) | 良好 | 73% |
| Qwen2.5-7B | 92% | 优秀 | 81% |
| Qwen2.5-32B | 95% | 极优 | 88% |
Qwen2.5 的长文本能力在同量级模型中最强,特别是 Qwen2.5-32B 处理长合同、长代码库的体验接近商业 API。
选型决策树
你的核心需求是什么? │ ├── 中文写作 / 知识问答 / 多语言 │ └── 首选:Qwen2.5-7B(显存 < 8GB) │ Qwen2.5-14B(显存 12-16GB) │ Qwen2.5-32B(显存 24GB+) │ ├── 代码生成 / 补全 / 重构 │ ├── 显存 < 10GB → Qwen2.5-Coder-7B │ └── 显存 16-24GB → DeepSeek-Coder-V2-Lite-16B │ ├── 英语场景 / 与 OpenAI 生态兼容 │ └── Llama-3.1-8B / 70B(英语第一梯队) │ └── 土豪配置(多卡 / 高内存服务器) └── Qwen2.5-72B 或 DeepSeek-V2.5 MoE 完整版快速部署:Ollama 一行命令
# 安装 Ollama(macOS/Linux)curl-fsSLhttps://ollama.com/install.sh|sh# 拉取并运行模型ollama run qwen2.5:7b# Qwen2.5 7Bollama run qwen2.5-coder:7b# Qwen2.5 Coder 7Bollama run llama3.1:8b# Llama 3.1 8Bollama run deepseek-coder-v2# DeepSeek Coder V2 Lite# 查看当前已下载模型ollama list# API 调用(兼容 OpenAI 格式)curlhttp://localhost:11434/v1/chat/completions\-H"Content-Type: application/json"\-d'{ "model": "qwen2.5:7b", "messages": [{"role": "user", "content": "用 Python 写一个快速排序"}] }'Docker 部署方案(生产环境推荐)
# docker-compose.ymlversion:'3.8'services:ollama:image:ollama/ollama:latestports:-"11434:11434"volumes:-ollama_data:/root/.ollamadeploy:resources:reservations:devices:-driver:nvidiacount:allcapabilities:[gpu]restart:unless-stoppedopen-webui:image:ghcr.io/open-webui/open-webui:mainports:-"3000:8080"environment:-OLLAMA_BASE_URL=http://ollama:11434depends_on:-ollamarestart:unless-stoppedvolumes:ollama_data:dockercompose up-d# 访问 http://localhost:3000 打开 WebUI量化参数速查
| 量化类型 | 文件后缀 | 质量损失 | 适合场景 |
|---|---|---|---|
| Q8_0 | .Q8_0.gguf | 极低 | 高精度,显存充裕 |
| Q5_K_M | .Q5_K_M.gguf | 低 | 质量与速度均衡 |
| Q4_K_M | .Q4_K_M.gguf | 中低 | 推荐默认选择 |
| Q3_K_M | .Q3_K_M.gguf | 中等 | 大模型 / 显存受限 |
| Q2_K | .Q2_K.gguf | 较高 | 仅极限压缩场景 |
综合评分汇总
| 维度 | Llama-3.1-8B | Qwen2.5-7B | DeepSeek-Coder-V2-Lite |
|---|---|---|---|
| 中文能力 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 代码能力 | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 推理速度 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
| 显存效率 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
| 长文本 | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 生态工具 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 综合推荐 | 英语场景 | 通用首选 | 代码专项 |
写在最后
2026 年的本地 LLM 生态已经足够成熟,消费级 GPU 完全可以流畅运行 14B 甚至 32B 的高质量模型。我的建议:
- 日常通用场景:Qwen2.5-7B 是性价比最高的起点,中文能力强、速度快、显存低
- 代码辅助开发:Qwen2.5-Coder-7B 或 DeepSeek-Coder-V2-Lite-16B,根据显存选择
- 英语内容创作:Llama-3.1-8B 在英语场景依然是最平衡的选择
- 有钱任性:Qwen2.5-72B 或 DeepSeek-V2.5 MoE 完整版,效果直逼 GPT-4o
本地跑 LLM 不再是一件难事,核心工具链只需要:Ollama + Open-WebUI + 一块 24GB 显卡,然后根据本文的选型决策树挑选适合你场景的模型即可。
本文数据基于实测,部分模型版本可能随更新有所变化。如有疑问欢迎评论区交流。
系列文章传送门:CSDN 专栏 - AI 大模型技术实战
