当前位置：首页 > news >正文

AutoGen本地部署避坑指南：Poetry+Ollama+Chroma全链路实操

news 2026/6/5 4:57:12

1. 项目概述：为什么本地部署 AutoGen 不是“装个包”那么简单

AutoGen 这个名字在2023年底突然密集出现在技术社区、AI工程群和开源项目推荐列表里，但很多人点开 GitHub 主页第一眼看到的不是 demo 视频，而是满屏的pip install autogen和一长串可选依赖说明。我试过在三台不同配置的本地机器上部署——一台是刚配好的 M2 MacBook Pro（16GB 内存），一台是公司配的 Windows 11 笔记本（i7-11800H + 32GB RAM + RTX 3060），还有一台是家里闲置的 Ubuntu 22.04 服务器（AMD Ryzen 5 3600 + 64GB RAM）。结果是：三次安装全部失败，且失败原因各不相同。第一次卡在pydantic版本冲突，第二次因llama-cpp-python编译报错直接中断，第三次则是在启动autogen.AssistantAgent时抛出ModuleNotFoundError: No module named 'openai'——而我明明已经pip install openai==1.42.0。

这根本不是“13个简单步骤”能概括的事。AutoGen 本质是一个多角色协同推理框架，它不直接运行大模型，而是调度多个 Agent 实例，让它们通过消息传递完成复杂任务（比如：一个 Agent 负责写代码，另一个负责测试，第三个负责文档生成，第四个做安全审查）。它的本地运行依赖链极深：Python 解释器版本、CUDA 工具链、LLM 后端适配层（OpenAI API / Ollama / llama.cpp / vLLM）、向量数据库嵌入支持（Chroma / Qdrant）、甚至系统级的 OpenMP 并行库。所谓“13步”，其实是把环境准备、依赖仲裁、后端对接、配置校验、权限修复、日志调试、版本对齐、资源限制、安全沙箱、网络代理（仅限国内用户访问 HuggingFace 模型时）、模型缓存路径重定向、GPU 显存预分配、以及首次运行验证这13个不可跳过的硬性环节，用线性编号包装成“傻瓜操作”。

如果你正打算用 AutoGen 做真实项目——比如搭建一个本地知识库问答助手、自动化代码审查流水线，或构建教学用的多智能体沙盒环境，那么你真正需要的不是“怎么点下一步”，而是理解每一步背后的技术约束、失败信号、替代方案和降级路径。这篇文章就是我在踩完 27 个典型坑、重装 19 次环境、对比 8 种 Python 环境管理工具后，整理出的可复现、可诊断、可长期维护的本地部署实操手册。它不教你怎么调用initiate_chat()，只解决你连import autogen都报错的问题。适合两类人：一是刚接触 AutoGen 想快速跑通 demo 的开发者；二是需要将 AutoGen 集成进生产级本地 AI 工作流的工程师。

2. 核心设计逻辑与方案选型解析

2.1 为什么必须放弃“全局 pip install”？

AutoGen 官方文档首页第一行就写着pip install pyautogen（注意是pyautogen，不是autogen），这个细节暴露了其核心设计哲学：它不是一个单体应用，而是一套可插拔的协议栈。pyautogen是顶层 SDK，但底层依赖的autogen-core、autogen-ext、autogen-agentchat等子模块，各自有独立的版本演进节奏。例如：

autogen-core==0.2.32要求pydantic>=2.5.0,<2.7.0
autogen-ext==0.1.18却强制依赖pydantic<2.5.0
而autogen-agentchat==0.3.1又反向要求pydantic>=2.6.0

这种“三角依赖地狱”在全局环境中无法解，因为pip的依赖解析器默认采用“最后安装者胜出”策略，而非 SAT 求解。我实测过：在干净的 Python 3.11.8 环境中执行pip install pyautogen，最终安装的pydantic版本是2.6.4，但运行时会因autogen-ext的BaseModel导入失败而崩溃。

解决方案：强制使用 Poetry 管理依赖。Poetry 是目前唯一能对 Python 依赖进行 SAT 求解的主流工具（比 pip-tools 更稳定，比 conda 更轻量）。它会在pyproject.toml中生成精确的锁文件poetry.lock，确保每次poetry install安装的依赖组合完全一致。我对比过 5 种环境管理方案：

方案	依赖解析能力	CUDA 兼容性	多平台一致性	本地模型加载支持	学习成本
全局 pip	❌（无回溯）	⚠️（需手动编译）	❌（Windows/macOS/Linux 行为不一）	❌（无法指定 llama.cpp 构建参数）	低
venv + pip-tools	⚠️（需手动编写 constraints.txt）	⚠️	⚠️	⚠️	中
Conda	✅（mamba 更快）	✅（自动匹配 cudatoolkit）	✅	✅（支持 llama.cpp conda-forge 构建）	高
Docker	✅（镜像固化）	⚠️（需 nvidia-container-toolkit）	✅	✅（可挂载模型目录）	高
Poetry	✅（SAT 求解，自动冲突检测）	✅（可指定 build-system.requires）	✅（poetry export 生成跨平台 requirements.txt）	✅（支持 post-install hook 执行 llama.cpp 编译）	中

最终选择 Poetry，不是因为它最流行，而是它在依赖确定性和构建可控性之间取得了最佳平衡。尤其当你要对接本地 LLM（如 llama.cpp 或 Ollama）时，Poetry 的build-system.requires字段允许你声明llama-cpp-python[metal]（macOS）或llama-cpp-python[cuda]（NVIDIA），并在poetry run时自动激活对应构建选项。这是 pip 和 conda 都做不到的。

2.2 为什么“13步”里第7步必须是 Ollama 配置？

AutoGen 的核心价值在于“多 Agent 协同”，而协同的前提是每个 Agent 能稳定调用 LLM。官方示例几乎全用 OpenAI API，但这对本地部署毫无参考价值——你不可能在内网环境调用外部 API。所以第7步强制引入 Ollama，原因有三：

零配置模型服务化：Ollama 将模型加载、HTTP 接口暴露、上下文管理封装成一条命令ollama run llama3:8b，无需处理 tokenizer、model config、device mapping 等底层细节；
真正的本地闭环：所有模型权重、KV cache、logits 全部驻留本地内存，不经过任何网络传输，符合企业数据不出域的安全要求；
AutoGen 原生兼容：AutoGen 的llm_config支持直接传入{"model": "llama3", "base_url": "http://localhost:11434/v1", "api_key": "ollama"}，无需额外适配器。

但这里有个致命陷阱：Ollama 默认监听127.0.0.1:11434，而 Poetry 创建的虚拟环境进程默认无法访问 localhost 的 loopback 接口（尤其在 macOS Monterey+ 或 Windows WSL2 下）。我第一次部署时，Agent 死活连不上 Ollama，curl http://localhost:11434/api/tags返回Connection refused。排查发现：Ollama 在 macOS 上实际绑定的是::1（IPv6 loopback），而 AutoGen 的 HTTP client 默认走 IPv4。解决方案是修改 Ollama 配置：

# 创建 ~/.ollama/config.json { "host": "127.0.0.1:11434", "allowed_origins": ["*"] }

然后重启 Ollama：brew services restart ollama（macOS）或sudo systemctl restart ollama（Linux）。这步必须写进“13步”，否则前6步全是白忙。

2.3 为什么第11步要单独处理 ChromaDB 的持久化路径？

AutoGen 的GroupChatManager和RetrieveUserProxyAgent重度依赖向量数据库做上下文检索。官方默认用 ChromaDB，但它有个反直觉行为：当未显式指定persist_directory时，ChromaDB 会将数据写入当前工作目录下的chroma/子目录，且该目录权限继承自 Python 进程的 umask。

问题来了：Poetry 创建的虚拟环境通常以root权限安装（尤其在 Linux 服务器上），导致chroma/目录所有者变成root，而你日常开发用的是普通用户dev。结果就是：第一次运行成功，第二次chroma.get_or_create_collection()报PermissionError: [Errno 13] Permission denied。

更隐蔽的是 Windows 场景：ChromaDB 在 Windows 上默认使用duckdb作为底层引擎，而 duckdb 的 WAL 日志文件会锁定整个数据库目录。如果你在 Jupyter Notebook 中运行一次 AutoGen，然后关闭内核，再用 VS Code 的 Python 终端重新运行，就会遇到IOError: Unable to open database file——因为前一个进程的 duckdb 连接未完全释放。

因此，“13步”中第11步必须显式指定persist_directory并设置宽松权限：

from chromadb.config import Settings client = chromadb.PersistentClient( path="/path/to/your/chroma_data", # 绝对路径！ settings=Settings( anonymized_telemetry=False, is_persistent=True, allow_reset=True, # 关键：禁用文件锁（仅限本地开发） duckdb__allow_unsafe=True ) )

这个路径必须是绝对路径，且需提前mkdir -p /path/to/your/chroma_data && chmod 755 /path/to/your/chroma_data。这不是可选项，是必选项。

3. 13个关键步骤的逐项实现与深度解析

3.1 步骤1：验证并锁定 Python 版本（3.11.x 是唯一安全选择）

AutoGen 对 Python 版本极其敏感。官方文档说支持 3.9+，但实测发现：

Python 3.12+：llama-cpp-python的 PyPI wheel 尚未发布（截至 2024年6月），必须源码编译，而setup.py中的setuptools版本检查会失败；
Python 3.10：pydantic的RootModel类在 3.10.12 中存在序列化 bug，导致autogen.Agent的llm_config序列化失败；
Python 3.11.0~3.11.5：asyncio的TaskGroup在 Windows 上有死锁风险，影响GroupChatManager的并发消息分发；

唯一被全链路验证的安全版本是 Python 3.11.8。验证方法：

# macOS/Linux python3.11 --version # 必须输出 3.11.8 python3.11 -c "import sys; print(sys.version_info)" # 检查 micro 版本

如果未安装，不要用系统包管理器（如apt install python3.11可能装到 3.11.2）：

macOS：brew install python@3.11 && brew unlink python && brew link --force python@3.11

Linux（Ubuntu）：从 deadsnakes PPA 安装：

sudo add-apt-repository ppa:deadsnakes/ppa sudo apt update sudo apt install python3.11 python3.11-venv python3.11-dev

Windows：从 python.org 下载Windows embeddable package (64-bit)，解压后手动添加到 PATH。

提示：不要用pyenv管理 Python 版本。pyenv在 Windows 和 macOS 上的二进制构建不稳定，且pyenv global 3.11.8会导致 Poetry 误判系统 Python 路径。直接用系统级 Python 3.11.8 最可靠。

3.2 步骤2：安装 Poetry 并初始化项目

Poetry 安装必须绕过pip，因为pip install poetry会安装旧版（1.5.x），而 AutoGen 依赖的poetry-core>=1.8.0需要 Poetry 1.7+。正确方式：

# macOS/Linux curl -sSL https://install.python-poetry.org | python3.11 - # Windows（PowerShell） (Invoke-WebRequest -Uri https://install.python-poetry.org -UseBasicParsing).Content | python3.11 -

安装后验证：

poetry --version # 必须 >= 1.7.0

初始化项目：

mkdir my-autogen-project && cd my-autogen-project poetry init -n # -n 跳过交互式提问

此时生成pyproject.toml，但它是空的。必须手动编辑，加入关键配置：

[tool.poetry] name = "my-autogen-project" version = "0.1.0" description = "" authors = ["Your Name <you@example.com>"] [tool.poetry.dependencies] python = "^3.11.8" # 锁定微版本！ [build-system] requires = ["poetry-core"] build-backend = "poetry.core.masonry.api"

注意：python = "^3.11.8"表示允许 3.11.8~3.11.999，但禁止升到 3.12。这是 Poetry 的语义化版本控制语法，不是 pip 的>=3.11.8。

3.3 步骤3：添加 AutoGen 核心依赖（带精确版本锁）

直接poetry add pyautogen会拉取最新版（0.3.x），但 0.3.x 引入了autogen-core的重构，与大量第三方扩展（如autogenstudio）不兼容。生产环境应锁定 0.2.x 分支。执行：

poetry add "pyautogen==0.2.32"

Poetry 会自动解析依赖并生成poetry.lock。但此时poetry.lock中的pydantic版本可能是2.6.4，而我们需要2.6.3（已知兼容性最佳）。手动编辑poetry.lock，找到[package.dependencies.pydantic]段，将version = "2.6.4"改为version = "2.6.3"，然后执行：

poetry lock --no-update poetry install

验证安装：

poetry run python -c "import autogen; print(autogen.__version__)" # 输出 0.2.32

3.4 步骤4：安装 llama-cpp-python（按平台定制编译）

AutoGen 的ConversableAgent若要本地运行 LLM，必须通过llama-cpp-python加载 GGUF 模型。但它的安装不是pip install能解决的：

macOS（Apple Silicon）：需启用 Metal 加速，否则 CPU 推理速度低于 1 token/s；
NVIDIA GPU：需 CUDA 12.1+，且llama-cpp-python必须用--cuda标志编译；
AMD GPU / Intel Arc：暂不支持，只能用 CPU 模式；

macOS Metal 方案：

poetry add "llama-cpp-python[metal]" # 如果报错：clang: error: unsupported option '-fopenmp' # 则先安装 libomp：brew install libomp # 然后重新安装：poetry add "llama-cpp-python[metal]" --force-reinstall

NVIDIA CUDA 方案：

# 确保 nvcc 可用 nvcc --version # 必须 >= 12.1 # 安装时指定 CUDA poetry add "llama-cpp-python[cuda]" --build-args "--cuda"

通用 CPU 方案（所有平台）：

poetry add "llama-cpp-python[default]"

安装后验证：

poetry run python -c "from llama_cpp import Llama; print('OK')"

3.5 步骤5：下载并验证本地 LLM 模型（GGUF 格式）

AutoGen 不自带模型，必须手动下载 GGUF 文件。推荐TinyLlama-1.1B-Chat-v1.0.Q4_K_M.gguf（1.1GB，适合测试）：

# 创建模型目录 mkdir -p ~/.cache/autogen/models # 下载（使用 aria2c 加速） aria2c -x 16 -s 16 https://huggingface.co/TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF/resolve/main/TinyLlama-1.1B-Chat-v1.0.Q4_K_M.gguf -d ~/.cache/autogen/models/

验证文件完整性（HuggingFace 提供 SHA256）：

shasum -a 256 ~/.cache/autogen/models/TinyLlama-1.1B-Chat-v1.0.Q4_K_M.gguf # 应输出：e8a5...（与 HF 页面一致）

注意：不要用wget或浏览器下载，HuggingFace 的 CDN 有时会返回 302 重定向，导致文件损坏。aria2c的断点续传和多连接更可靠。

3.6 步骤6：配置 Ollama（本地模型服务）

安装 Ollama 后，必须拉取一个模型并验证 HTTP 接口：

# macOS/Linux ollama pull llama3:8b # Windows（PowerShell） & "C:\Program Files\Ollama\ollama.exe" pull llama3:8b

启动服务并测试：

# 启动（后台） ollama serve & # 测试 API curl http://127.0.0.1:11434/api/tags # 应返回 JSON 包含 "name": "llama3:8b"

如果失败，检查~/.ollama/config.json是否存在且内容正确（见 2.2 节）。

3.7 步骤7：创建 AutoGen 配置文件（llm_config.yaml）

AutoGen 的llm_config是字典结构，但硬编码在 Python 脚本里难以维护。创建config/llm_config.yaml：

# config/llm_config.yaml # 本地 Ollama 配置 ollama: model: "llama3:8b" base_url: "http://127.0.0.1:11434/v1" api_key: "ollama" temperature: 0.7 max_tokens: 2048 # 本地 llama.cpp 配置 llamacpp: model_path: "/Users/yourname/.cache/autogen/models/TinyLlama-1.1B-Chat-v1.0.Q4_K_M.gguf" n_ctx: 2048 n_threads: 8 n_gpu_layers: 1 # macOS Metal：设为 -1；NVIDIA：设为 33 verbose: false

这个文件是后续所有 Agent 初始化的源头，必须用PyYAML解析：

poetry add pyyaml

3.8 步骤8：初始化 ChromaDB 持久化客户端

创建utils/chroma_init.py：

# utils/chroma_init.py import os from chromadb.config import Settings import chromadb def get_chroma_client(): # 强制使用绝对路径 persist_dir = os.path.abspath(os.path.join(os.path.dirname(__file__), "..", "data", "chroma")) os.makedirs(persist_dir, exist_ok=True) # 设置宽松权限（Linux/macOS） os.chmod(persist_dir, 0o755) return chromadb.PersistentClient( path=persist_dir, settings=Settings( anonymized_telemetry=False, is_persistent=True, allow_reset=True, duckdb__allow_unsafe=True # 关键！ ) )

测试：

poetry run python -c "from utils.chroma_init import get_chroma_client; print(get_chroma_client().list_collections())"

3.9 步骤9：编写第一个可运行的 Agent 脚本（test_agent.py）

# test_agent.py import autogen from utils.chroma_init import get_chroma_client import yaml import os # 加载配置 with open("config/llm_config.yaml") as f: config = yaml.safe_load(f) # 初始化 Ollama LLM llm_config = config["ollama"] # 创建 AssistantAgent assistant = autogen.AssistantAgent( name="assistant", llm_config=llm_config, system_message="You are a helpful AI assistant. Reply with TERMINATE when the task is done." ) # 创建 UserProxyAgent（启用代码执行） user_proxy = autogen.UserProxyAgent( name="user_proxy", human_input_mode="NEVER", max_consecutive_auto_reply=10, code_execution_config={ "work_dir": "coding", "use_docker": False, # 本地开发禁用 Docker }, llm_config=llm_config, ) # 启动对话 user_proxy.initiate_chat( assistant, message="What is the capital of France?" )

运行：

poetry run python test_agent.py

如果看到assistant回复"The capital of France is Paris."，说明基础链路打通。

3.10 步骤10：启用代码执行沙箱（安全加固）

UserProxyAgent默认允许执行任意 Python 代码，这在本地开发中很危险。必须启用沙箱：

# 安装 sandbox 依赖 poetry add "pexpect>=4.8.0" "docker>=6.0.0"

修改test_agent.py中的code_execution_config：

code_execution_config={ "work_dir": "coding", "use_docker": True, # 启用 Docker 沙箱 "timeout": 60, "image": "python:3.11-slim", # 使用最小化镜像 }

注意：Windows 用户需启用 WSL2 并安装 Docker Desktop；macOS 用户需brew install docker并启动 Docker.app；Linux 用户需sudo systemctl start docker。

3.11 步骤11：配置向量检索（RetrieveUserProxyAgent）

创建agents/retrieve_agent.py：

# agents/retrieve_agent.py from autogen.agentchat.contrib.retrieve_user_proxy_agent import RetrieveUserProxyAgent from utils.chroma_init import get_chroma_client # 初始化 Chroma 客户端 client = get_chroma_client() # 创建检索代理 rag_proxy = RetrieveUserProxyAgent( name="rag_proxy", retrieve_config={ "task": "qa", "docs_path": "./docs", # 本地文档目录 "chunk_token_size": 500, "model": "gpt-4o", # 此处仅为 embedding 模型名，实际用本地 Ollama "vector_db": "chroma", "client": client, "embedding_model": "all-MiniLM-L6-v2", # SentenceTransformer 模型 "get_or_create": True, }, code_execution_config=False, )

安装 embedding 依赖：

poetry add sentence-transformers

提示：all-MiniLM-L6-v2是轻量级模型，10MB，适合本地部署。不要用text-embedding-ada-002（需 API key）。

3.12 步骤12：设置环境变量与权限（关键收尾）

创建.env文件：

# .env AUTOGEN_USE_DOCKER=1 CHROMA_DB_IMPL=duckdb+parquet OLLAMA_HOST=http://127.0.0.1:11434

加载环境变量：

poetry run python -c "import os; print(os.getenv('OLLAMA_HOST'))"

修复权限（Linux/macOS）：

chmod -R 755 data/ coding/ config/

3.13 步骤13：运行端到端测试（验证全部12步）

创建run_all.py：

# run_all.py from agents.retrieve_agent import rag_proxy from test_agent import assistant, user_proxy # 测试 RAG rag_proxy.initiate_chat( assistant, message="What does the document say about AutoGen's GroupChat?" )

运行：

poetry run python run_all.py

成功标志：

控制台输出rag_proxy从./docs加载文档并切块；
ChromaDB 创建autogen_docscollection；
assistant基于检索结果回答问题；
无PermissionError、ImportError、ConnectionRefusedError。

4. 常见问题与实战排查技巧

4.1 问题速查表：高频报错与根因定位

报错信息	根本原因	诊断命令	解决方案
`ModuleNotFoundError: No module named 'openai'`	Poetry 未安装`openai`，但 AutoGen 0.2.x 依赖它做类型提示	`poetry show \| grep openai`	`poetry add openai==1.42.0`
`llama_cpp.LlamaCache is not JSON serializable`	`llama-cpp-python`版本 > 0.2.59，与 AutoGen 0.2.x 不兼容	`poetry show \| grep llama-cpp`	`poetry add "llama-cpp-python==0.2.59"`
`ConnectionRefusedError: [Errno 61] Connection refused`	Ollama 未运行，或绑定地址错误	`lsof -i :11434`	`ollama serve`+ 检查`~/.ollama/config.json`
`PermissionError: [Errno 13] Permission denied: 'chroma/'`	ChromaDB 目录所有者为 root	`ls -la data/chroma/`	`sudo chown -R $USER:$GROUPS data/chroma/`
`RuntimeError: cuDNN error: CUDNN_STATUS_NOT_SUPPORTED`	CUDA 版本与 PyTorch 不匹配	`nvidia-smi`+`poetry run python -c "import torch; print(torch.version.cuda)"`	降级`torch`或升级 CUDA
`ValueError: Model path does not exist`	`llamacpp.model_path`是相对路径	`poetry run python -c "import os; print(os.path.exists('relative/path'))"`	改为绝对路径`os.path.abspath(...)`
`docker.errors.DockerException: Error while fetching server API version`	Docker daemon 未启动	`systemctl is-active docker`	`sudo systemctl start docker`

4.2 实战排查技巧：如何读懂 AutoGen 的日志

AutoGen 默认日志级别是WARNING，看不到关键信息。必须在脚本开头添加：

import logging logging.basicConfig(level=logging.INFO) # 或更详细： # logging.basicConfig(level=logging.DEBUG, format="%(asctime)s - %(name)s - %(levelname)s - %(message)s")

重点关注三个日志源：

autogen.oai.client：显示 LLM 请求 URL、headers、响应状态码；
autogen.agentchat.groupchat：显示 Agent 消息路由、超时、重试；
chromadb.segment.impl.vector.local_hnsw：显示向量检索耗时、相似度分数。

例如，当 RAG 检索结果为空时，看chromadb日志是否输出query result count: 0，如果是，则检查docs_path是否有文件，或chunk_token_size是否过大导致切块失败。

4.3 性能调优：让本地 AutoGen 跑得更快

GPU 层面：NVIDIA 用户务必设置n_gpu_layers=33（Llama3-8B）或n_gpu_layers=25（TinyLlama-1.1B），否则大部分计算仍在 CPU；
CPU 层面：n_threads设为物理核心数（非逻辑线程数），htop查看CPU(s)行的xx；
内存层面：n_ctx不要设过大，TinyLlama-1.1B 设2048即可，设4096会触发 swap；
网络层面：Ollama 默认启用--verbose，关闭它：ollama serve --verbose=false。

4.4 安全加固：生产环境必须做的5件事

禁用human_input_mode="ALWAYS"：防止 Agent 在无人值守时请求人工输入；
限制max_consecutive_auto_reply：设为5，避免无限循环；
沙箱work_dir绝对路径隔离：work_dir="/tmp/autogen_coding_$(date +%s)"，每次运行新建；
Docker 沙箱禁用特权模式：use_docker={"image": "python:3.11-slim", "privileged": False}；
Ollama 绑定内网地址："host": "127.0.0.1:11434"，禁止0.0.0.0。

4.5 版本升级指南：如何安全地升级 AutoGen

不要直接poetry update。正确流程：

备份poetry.lock：cp poetry.lock poetry.lock.bak；
查看 AutoGen 发布日志：curl -s https://api.github.com/repos/microsoft/autogen/releases \| jq '.[0].body'；
检查 BREAKING CHANGES 段落；
仅升级pyautogen：poetry add "pyautogen==0.2.33"；
运行全部测试：poetry run python -m pytest tests/；
成功后提交新poetry.lock。

我踩过的最大坑：某次升级到 0.2.30 后，GroupChatManager的reset()方法签名变更，导致所有自定义 GroupChat 类崩溃。现在我的 CI 流程强制运行grep -r "def reset" .检查签名一致性。

5. 实操心得与避坑经验

5.1 关于模型选择的真实建议

别迷信“越大越好”。我实测过 5 个模型在 TinyLlama-1.1B、Phi-3-mini、Qwen2-0.5B、Llama3-8B、Gemma-2B 上的 AutoGen 任务表现：

模型	内存占用	推理速度（token/s）	Agent 协作稳定性	代码生成质量
TinyLlama-1.1B	1.2GB	18	⭐⭐⭐⭐⭐	⭐⭐
Phi-3-mini	2.1GB	12	⭐⭐⭐⭐	⭐⭐⭐
Qwen2-0.5B	0.9GB	22	⭐⭐⭐⭐⭐	⭐⭐
Llama3-8B	5.3GB	4.2	⭐⭐⭐	⭐⭐⭐⭐⭐
Gemma-2B	1.8GB	15	⭐⭐⭐⭐	⭐⭐⭐⭐