当前位置：首页 > news >正文

LangSmith 模型评估 (Evaluation) 完整指南

news 2026/6/11 16:57:42

本文档将手把手教你如何使用LangSmith对 LLM（如 Gemini, DeepSeek, GPT）进行自动化评估和对比。

1. 注册与准备

1.1 注册账号

访问 LangSmith 官网。此处需要魔法
使用 GitHub 或 Google 账号登录。
注意：LangSmith 分为US (美国)和EU (欧洲)两个数据中心。注册时请留意你所在的区域（或者由系统自动分配）。

1.2 获取 API Key

登录后，点击左下角的Settings (设置)图标。
选择API Keys选项卡。
点击Create API Key。
给 Key 起个名字（如 “Test Key”），然后复制保存（只显示一次）。

在上图这里选 Run an Evaluation

点击这里Generate API key 就会获得一个key

1.3 确认 Endpoint (关键步骤！)

如果你的账号被分配到了EU (欧洲)节点（URL 是eu.smith.langchain.com），你必须显式配置 Endpoint，否则会报403 Forbidden。

US 节点（默认）：https://api.smith.langchain.com
EU 节点：https://eu.api.smith.langchain.com

设置环境变量：

ANGCHAIN_ENDPOINT="https://eu.api.smith.langchain.com"LANGCHAIN_API_KEY="lsvxxxxxxxxxxxxxxxxxxxx"

2. 环境配置

2.1 安装依赖

你需要安装langsmith和langchain相关库。

pipinstalllangsmith langchain langchain-openai

2.2 配置环境变量 (.env)

在项目根目录创建.env文件，填入以下内容：

# 开启 Tracing (可选，但推荐) LANGCHAIN_TRACING_V2=true # 你的 API Key LANGCHAIN_API_KEY="ls__your_api_key_here" # 如果你是 EU 账号，必须加这一行！US 账号可忽略 LANGCHAIN_ENDPOINT="https://eu.api.smith.langchain.com" # 你的模型 Key (用于调用模型) GEMINI_API_KEY="AIza..." DEEPSEEK_API_KEY="sk-..."

3. 实战代码：模型对比评估

我们将编写一个脚本，对比Gemini和DeepSeek在回答同一组问题时的表现。

完整代码 (`compare_model.py`)

importosfromlangsmithimportClient,evaluatefromsrc.llm.gemini_chat_modelimportget_gemini_llmfromsrc.llm.deepseek_chat_modelimportget_deepseek_llm# ================= 1. 初始化客户端 =================client=Client()# ================= 2. 准备数据集 (Dataset) =================# 数据集名称dataset_name="AI_Interview_Questions"# 检查数据集是否存在，不存在则创建ifnotclient.has_dataset(dataset_name=dataset_name):print(f"创建新数据集:{dataset_name}")dataset=client.create_dataset(dataset_name=dataset_name,description="用于测试模型的基础问答能力")# 写入测试用例 (Inputs)# 可以在这里添加标准答案 (Outputs) 用于自动打分，这里仅做生成测试client.create_examples(inputs=[{"prompt":"什么是 RAG (Retrieval-Augmented Generation)？"},{"prompt":"用 Python 写一个快排算法。"},{"prompt":"解释量子纠缠，像我只有5岁一样。"},],dataset_id=dataset.id,)else:print(f"使用现有数据集:{dataset_name}")# ================= 3. 准备模型 (Target Functions) =================# 初始化 LangChain 模型对象gemini=get_gemini_llm()deepseek=get_deepseek_llm()# 定义包装函数# LangSmith 会把数据集里的 inputs (如 {"prompt": "..."}) 传给这个函数defpredict_gemini(inputs:dict):# 调用模型response=gemini.invoke(inputs["prompt"])# 返回结果，key 可以是 "output" 或 "answer"return{"output":response.content}defpredict_deepseek(inputs:dict):response=deepseek.invoke(inputs["prompt"])return{"output":response.content}# ================= 4. 运行评估 (Run Evaluation) =================print("开始评估 Gemini...")evaluate(predict_gemini,data=dataset_name,experiment_prefix="gemini-v1",# 实验名称前缀description="Gemini Pro 基础测试")print("开始评估 DeepSeek...")evaluate(predict_deepseek,data=dataset_name,experiment_prefix="deepseek-v1",description="DeepSeek Chat 基础测试")