当前位置：首页 > news >正文

DeepSeek-R1-Distill-Qwen-1.5B保姆级教程：Streamlit侧边栏功能与状态管理

news 2026/7/1 0:13:40

DeepSeek-R1-Distill-Qwen-1.5B保姆级教程：Streamlit侧边栏功能与状态管理

1. 为什么你需要一个“会思考”的本地对话助手？

你有没有试过在本地跑一个真正能推理、能解题、还能把思考过程清清楚楚写出来的AI？不是那种只给答案、答得模棱两可的模型，而是像一位耐心的老师，一边推演一边讲解——比如输入“请分析这个逻辑悖论”，它真能分步骤拆解前提、指出隐含假设、最后给出结论。

DeepSeek-R1-Distill-Qwen-1.5B 就是这样一个“小而强”的存在。它不是动辄7B、14B的大块头，而是一个仅1.5B参数的超轻量蒸馏模型，却完整继承了 DeepSeek-R1 的强逻辑链能力 + Qwen 系列成熟稳定的架构底座。更关键的是：它不联网、不上传、不调用API，所有计算都在你自己的机器上完成。你问“公司财报里的EBITDA怎么算”，它不会偷偷把你的财务关键词发到云端；你让它写一段敏感业务逻辑的Python代码，也不会触发任何外部审计或日志上报。

而本教程要带你亲手搭起它的“操作台”——一个用 Streamlit 构建的极简Web界面。重点不是“怎么加载模型”，而是怎么让这个界面真正好用、可控、可复用。尤其是侧边栏（Sidebar）这个常被新手忽略的区域，它不只是放几个按钮的地方，而是整套对话系统状态管理的“控制中枢”。清空历史、切换温度、查看显存占用、甚至临时关闭思维链输出……这些功能全靠它驱动。接下来，我们就从零开始，一行行讲清楚每一步背后的逻辑和取舍。

2. 环境准备与一键部署：3分钟跑通本地服务

2.1 基础依赖安装（无需编译，纯pip）

本项目对环境要求极低，连CUDA版本都不用纠结。只要你的机器装了Python 3.9+，就能跑起来：

# 创建干净虚拟环境（推荐） python -m venv ds_env source ds_env/bin/activate # Linux/Mac # ds_env\Scripts\activate # Windows # 安装核心依赖（全部来自PyPI，无源码编译） pip install torch==2.3.0+cu121 --index-url https://download.pytorch.org/whl/cu121 pip install transformers==4.41.2 accelerate==0.30.1 sentencepiece==0.2.0 pip install streamlit==1.35.0

注意：如果你没有NVIDIA GPU，或只想用CPU测试，把第一行换成pip install torch==2.3.0+cpu --index-url https://download.pytorch.org/whl/cpu即可。模型在CPU上也能跑，只是响应稍慢（约5–12秒），但完全可用。

2.2 模型文件准备：不用下载，直接挂载

项目默认路径为/root/ds_1.5b，这是魔塔平台预置镜像的标准位置。你不需要手动下载模型权重——只要使用官方镜像或按文档挂载对应目录，Streamlit启动时会自动识别。

验证是否就位：

ls /root/ds_1.5b/ # 应看到：config.json model.safetensors tokenizer.json tokenizer_config.json special_tokens_map.json

如果路径不存在，可快速创建模拟结构（仅用于调试）：

mkdir -p /root/ds_1.5b touch /root/ds_1.5b/config.json /root/ds_1.5b/model.safetensors echo '{"model_type":"qwen"}' > /root/ds_1.5b/config.json

2.3 启动服务：一条命令，开箱即用

保存以下代码为app.py（就是整个应用的全部逻辑）：

# app.py import streamlit as st from transformers import AutoTokenizer, AutoModelForCausalLM import torch # === 1. 页面基础配置 === st.set_page_config( page_title="DeepSeek R1 · 本地对话助手", page_icon="🧠", layout="centered", initial_sidebar_state="expanded" ) # === 2. 侧边栏初始化（核心！）=== with st.sidebar: st.title("⚙ 控制中心") # 显存监控（实时） if torch.cuda.is_available(): gpu_mem = torch.cuda.memory_allocated() / 1024**3 st.metric("GPU显存占用", f"{gpu_mem:.2f} GB") else: st.info(" 当前运行于CPU模式") # 清空按钮（带确认） if st.button("🧹 清空全部对话", type="secondary", use_container_width=True): st.session_state.messages = [] st.session_state.history = [] if "model" in st.session_state: del st.session_state.model del st.session_state.tokenizer st.cache_resource.clear() # 强制清除模型缓存 st.rerun() # 推理参数调节（用户可干预） st.subheader("🔧 推理设置") temperature = st.slider("回答多样性（temperature）", 0.1, 1.2, 0.6, 0.1) top_p = st.slider("采样范围（top_p）", 0.5, 1.0, 0.95, 0.05) max_new_tokens = st.slider("最大生成长度", 256, 4096, 2048, 256) # 思维链开关（影响输出格式） show_thinking = st.toggle("显示思考过程", value=True, help="关闭后仅显示最终答案") # === 3. 模型与分词器加载（带缓存）=== @st.cache_resource def load_model(): model_path = "/root/ds_1.5b" tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_path, device_map="auto", torch_dtype="auto", trust_remote_code=True ) return tokenizer, model try: tokenizer, model = load_model() except Exception as e: st.error(f"❌ 模型加载失败：{str(e)}\n请检查路径 `/root/ds_1.5b` 是否存在且权限正确。") st.stop() # === 4. 对话历史初始化 === if "messages" not in st.session_state: st.session_state.messages = [] st.session_state.history = [] # === 5. 主聊天区渲染 === st.title("🧠 DeepSeek-R1-Distill-Qwen-1.5B · 本地对话助手") st.caption("所有推理均在本地完成｜零数据上传｜支持思维链推理") # 显示历史消息（气泡式） for msg in st.session_state.messages: with st.chat_message(msg["role"]): st.write(msg["content"]) # === 6. 用户输入与响应逻辑 === if prompt := st.chat_input("考考 DeepSeek R1..."): # 添加用户消息 st.session_state.messages.append({"role": "user", "content": prompt}) with st.chat_message("user"): st.write(prompt) # 构建对话模板（原生支持Qwen格式） messages = [{"role": "system", "content": "你是一个严谨、乐于解释推理过程的AI助手。"}] messages.extend(st.session_state.messages) input_ids = tokenizer.apply_chat_template( messages, tokenize=True, add_generation_prompt=True, return_tensors="pt" ).to(model.device) # 生成参数（来自侧边栏） gen_kwargs = { "max_new_tokens": max_new_tokens, "temperature": temperature, "top_p": top_p, "do_sample": True, "eos_token_id": tokenizer.eos_token_id, } # 关键：禁用梯度 + 自动清理显存 with torch.no_grad(): outputs = model.generate(input_ids, **gen_kwargs) response = tokenizer.decode(outputs[0][input_ids.shape[1]:], skip_special_tokens=True) # 格式化输出：自动识别并分离 <think>...</think> 标签 if show_thinking and "<think>" in response: parts = response.split("<think>") if len(parts) > 1: think_part = parts[1].split("</think>")[0].strip() answer_part = parts[1].split("</think>")[1].strip() if len(parts[1].split("</think>")) > 1 else "" formatted = f" **思考过程**：\n{think_part}\n\n **最终回答**：\n{answer_part}" else: formatted = response else: formatted = response # 添加AI回复 st.session_state.messages.append({"role": "assistant", "content": formatted}) with st.chat_message("assistant"): st.write(formatted)

启动服务：

streamlit run app.py --server.port=8501

首次启动时，你会看到终端打印Loading: /root/ds_1.5b，等待10–30秒（取决于GPU型号），页面自动打开即表示成功。后续重启将秒级加载。

3. 侧边栏不只是“放按钮的地方”：它如何成为状态管理的核心？

3.1 为什么必须用`st.sidebar`而不是普通组件？

很多新手会把“清空”按钮直接放在主界面，结果发现点了没反应，或者清空后显存还在涨。根本原因在于：Streamlit 的状态生命周期和重绘机制，决定了控制类操作必须放在 sidebar 中才能稳定生效。

st.sidebar是独立于主内容流的持久化UI容器，它的组件状态在页面重绘时不会被意外重置；
所有st.button、st.slider、st.toggle在 sidebar 中注册后，其值变化会触发st.rerun()，从而保证st.session_state的同步更新；
主区域的按钮点击后，若未显式调用st.rerun()，Streamlit 可能只局部刷新，导致del st.session_state.model这类关键操作失效。

换句话说：sidebar 是你和 Streamlit 状态系统的“正式接口”，主区域只是“展示屏”。

3.2`st.session_state`的三层防护设计

本项目对对话状态做了三重隔离，确保每次清空都彻底、安全、可预期：

层级	存储内容	清空方式	作用
1. 消息列表	`st.session_state.messages`	`st.session_state.messages = []`	清除界面上可见的所有气泡消息
2. 历史上下文	`st.session_state.history`	`st.session_state.history = []`	清除传给模型的原始对话历史（避免残留）
3. 模型实例	`st.session_state.model`&`tokenizer`	`del st.session_state.model`+`st.cache_resource.clear()`	彻底释放GPU显存，防止OOM

关键细节：st.cache_resource.clear()不是可选的。它强制清空@st.cache_resource装饰的函数缓存，否则即使你删了st.session_state.model，下次调用load_model()仍会从缓存中返回旧实例——显存根本没释放。

3.3 显存监控：不是炫技，而是刚需

你在侧边栏看到的这行：

gpu_mem = torch.cuda.memory_allocated() / 1024**3 st.metric("GPU显存占用", f"{gpu_mem:.2f} GB")

它解决了一个真实痛点：低显存设备（如RTX 3050 6GB、T4 16GB）极易在多轮对话后因显存累积而崩溃。传统做法是等报错再重启，而这里实现了“主动感知+一键清理”。

更进一步，你可以把它升级为自动预警：

# 加入 sidebar 中 if torch.cuda.is_available(): gpu_mem = torch.cuda.memory_allocated() / 1024**3 st.metric("GPU显存占用", f"{gpu_mem:.2f} GB") if gpu_mem > 4.5: # 预设阈值 st.warning(" 显存使用率过高，建议点击「🧹 清空」释放资源")

4. 思维链输出的自动格式化：让AI“说人话”

4.1 模型原生输出 vs 用户友好输出

DeepSeek-R1-Distill-Qwen-1.5B 在推理时会自然输出类似这样的文本：

<think>首先，题目给出两个方程：x + y = 5 和 2x - y = 1。我需要解这个二元一次方程组。第一步是消元，可以将两个方程相加，得到 3x = 6，因此 x = 2。代入第一个方程得 y = 3。</think> 所以 x = 2，y = 3。

如果不处理，用户看到的就是一整段带标签的乱码。而我们的格式化逻辑做了三件事：

精准切分：用<think>和</think>作为锚点，严格提取中间内容；
语义增强：把think_part加粗为「思考过程」，answer_part加粗为「最终回答」；
容错兜底：当标签缺失或格式异常时，直接返回原始文本，绝不报错中断。

这段逻辑藏在主循环末尾：

if show_thinking and "<think>" in response: # ... 切分与重组 else: formatted = response # 安全降级

4.2 为什么`show_thinking`要做成侧边栏开关？

因为不同场景需求完全不同：

学生解题：必须开，要看每一步推导；
快速查资料：可以关，只看结论更高效；
嵌入其他系统：API调用时可能需纯文本，关闭后输出更干净。

把它放在 sidebar，意味着用户随时可切换，且切换后所有后续回复立即生效——这背后是st.session_state对show_thinking值的实时监听，而非静态配置。

5. 进阶技巧：让这个对话助手真正“为你所用”

5.1 快速切换模型：只需改一行路径

你想试试别的轻量模型？比如Qwen1.5-0.5B或Phi-3-mini-4k-instruct？不用改任何逻辑，只动这一行：

# 原来 model_path = "/root/ds_1.5b" # 改成（示例） model_path = "/root/qwen_0.5b" # 或 model_path = "/root/phi3_mini"

前提是目标模型也支持apply_chat_template，且已放入对应路径。这就是标准化接口的价值：模型即插即用，界面逻辑零耦合。

5.2 导出对话记录：一键保存为Markdown

在侧边栏加一个导出按钮，几行代码搞定：

# 加入 sidebar if st.button(" 导出当前对话", use_container_width=True): md_content = "# 对话记录\n\n" for msg in st.session_state.messages: role = "🙋‍♂ 用户" if msg["role"] == "user" else " DeepSeek" md_content += f"### {role}\n{msg['content']}\n\n" st.download_button( "💾 下载为 .md 文件", data=md_content, file_name=f"ds_conversation_{int(time.time())}.md", mime="text/markdown" )

5.3 限制最大对话轮数：防显存溢出

对于长期运行的服务，可加入自动截断：

# 在用户输入前加入 MAX_TURNS = 10 if len(st.session_state.messages) > MAX_TURNS * 2: # 用户+AI各一轮 st.session_state.messages = st.session_state.messages[-MAX_TURNS*2:] st.warning(f" 对话已超过 {MAX_TURNS} 轮，自动保留最近记录以保障性能")