当前位置：首页 > news >正文

云服务器部署私有AI大模型实战指南

news 2026/6/29 16:43:24

准备工作：

一台云服务器，配置最低4G、4核，勉强能跑0.5b、1b大模型
详细步骤：

服务器配置：4核/4GB / Ubuntu 24.04 / 无 GPU
目标：让一台廉价云服务器也能跑大模型，且能通过 API 调用

前言：我为什么要写这篇

不是每台服务器都有 A100 显卡，不是每个人都在 H100 集群上做推理。

我的服务器配置很寒碜——4 核 CPU，3.6GB 内存，没有 GPU。这是一台典型的"买来挂个博客、跑个脚本"的轻量级云服务器。

但我想在这上面跑大模型。不是说说而已，是真的要用起来。

如果你也在类似的机器上挣扎过，这篇文章就是给你的。

硬件真相：你能跑什么样的模型？

先说结论：CPU + 3.6GB 内存，你能跑 1B~3B 参数级别的量化模型。

这里有个简单的经验公式：

模型运行时显存 ≈ 参数规模 × 量化精度

模型规模	4-bit 量化	8-bit 量化	FP16
0.5B (如 Qwen2.5-0.5B)	~0.3GB	~0.5GB	~1GB
1.8B (如 Qwen2.5-1.5B)	~1GB	~1.8GB	~3.6GB
3B (如 Qwen2.5-3B)	~1.7GB	~3GB	~6GB

看明白了吧？在 3.6GB 的机器上，Qwen2.5-1.5B 的 4-bit 量化版是舒适区，Qwen2.5-3B 的 4-bit 量化版是极限。

提醒！！！

推荐直接给云服务器安装Openclaw或其它Agent镜像，然后直接让AI替你安装AI大模型即可免去手动折腾！下文也就不需要看了！

第一步：安装 Ollama

Ollama 是目前最简单的大模型运行方案。一条命令安装：

curl-fsSLhttps://ollama.com/install.sh|sh

安装完成后，Ollama 会以 systemd 服务运行：

# 检查状态systemctl status ollama# 如果没启动systemctlenable--nowollama

如果你的服务器在国外、网络不稳定，可以先检查一下ollama.com能否访问。被墙的话你得先解决代理问题，本文不展开。

第二步：选择合适的模型

第三步：验证与测试

拉完模型后，先确认它在跑：

# 列出已安装的模型ollama list# 命令行直接对话测试ollama run qwen2.5:1.5b

输入一个简单问题试试，比如：“用 Python 写一个冒泡排序”。看看输出是否正常。

如果出现 OOM（内存不足），检查：

# 查看当前内存使用free-h# 清理系统缓存sync&&echo3>/proc/sys/vm/drop_caches

第四步：开放 API 接口

Ollama 默认只在127.0.0.1:11434监听。如果要从其他机器访问，需要修改配置。

4.1 配置外部访问

编辑 Ollama 的环境变量：

# 编辑 systemd 服务配置systemctl edit ollama

添加以下内容：

[Service] Environment="OLLAMA_HOST=0.0.0.0"

然后重启：

systemctl daemon-reload systemctl restart ollama

4.2 安全提醒 ⚠️

开放0.0.0.0意味着任何人都能访问你的模型。强烈建议配置防火墙：

# 仅允许特定 IP 访问ufw allow from 你的IP to any port11434# 或使用 iptablesiptables-AINPUT-ptcp--dport11434-s你的IP-jACCEPT iptables-AINPUT-ptcp--dport11434-jDROP

更好的做法是用 Nginx 反向代理加一层 Basic Auth，或者搭配 API Key 网关。

4.3 测试 API

# 从远程机器测试curlhttp://你的服务器IP:11434/api/generate-d'{ "model": "qwen2.5:1.5b", "prompt": "你好，请用一句话介绍你自己", "stream": false }'

返回结果类似：

{"model":"qwen2.5:1.5b","response":"我是通义千问，阿里云开发的大语言模型。","done":true}

第五步：调优与踩坑

5.1 推理太慢怎么办？

CPU 推理就是慢，这是物理定律。但可以优化：

调整并发线程数：

# 设置 OLLAMA_NUM_PARALLEL 控制并发请求数（默认是1）systemctl edit ollama# 添加Environment="OLLAMA_NUM_PARALLEL=1"

保持单并发。在 4 核 CPU 上，并行推理不会更快，反而会互相抢 CPU。

使用量化模型：

Ollama 默认使用 Q4_K_M 量化（4-bit），如果你是手动导入模型，确保用 GGUF 格式的量化版本，而不是 FP16 的原始权重。

5.2 内存不够用？

# 增加 swap（临时方案，会变慢但不会 OOM）fallocate-l4G /swapfilechmod600/swapfilemkswap/swapfileswapon/swapfile

注意：swap 会导致推理速度断崖式下降。能不用就别用。

5.3 模型下载慢？

设置代理：

# 配置 HTTP 代理环境变量systemctl edit ollamaEnvironment="HTTP_PROXY=http://你的代理:端口"Environment="HTTPS_PROXY=http://你的代理:端口"

或者换个思路——在一台网络好的机器上下载模型文件，然后scp到服务器，手动导入 Ollama。

5.4 模型下载中断 / 不完整？

Ollama 支持断点续传。如果下载中断，直接重新执行ollama pull，它会从断点继续。

第六步：集成到你的应用

Python 调用示例

importrequestsimportjson OLLAMA_URL="http://localhost:11434"defchat(prompt,model="qwen2.5:1.5b"):response=requests.post(f"{OLLAMA_URL}/api/generate",json={"model":model,"prompt":prompt,"stream":False,"options":{"temperature":0.7,"num_predict":512,# 最大输出 token}})returnresponse.json()["response"]# 使用print(chat("解释一下什么是 API"))

兼容 OpenAI API 格式

Ollama 内置兼容 OpenAI 的/v1/chat/completions接口：

fromopenaiimportOpenAI client=OpenAI(base_url="http://你的服务器IP:11434/v1",api_key="ollama"# 任意字符串即可)response=client.chat.completions.create(model="qwen2.5:1.5b",messages=[{"role":"user","content":"你好"}])print(response.choices[0].message.content)