当前位置：首页 > news >正文

Langchain-Chatchat与CI/CD流水线集成：持续交付AI问答系统

news 2026/6/28 13:04:53

Langchain-Chatchat 与 CI/CD 流水线集成：打造可交付的 AI 问答系统

在企业智能化转型的浪潮中，一个现实问题日益凸显：如何让大模型真正“懂”企业的内部知识？通用语言模型虽然强大，但面对组织特有的制度文件、技术文档或客户资料时，往往显得力不从心。更关键的是，将这些敏感数据上传至公有云服务存在合规风险。于是，本地化部署的私有知识问答系统成为破局的关键。

开源项目Langchain-Chatchat正是这一需求下的典型代表。它基于 LangChain 框架，将大型语言模型（LLM）与企业本地文档库结合，通过检索增强生成（RAG）技术，在保障数据不出内网的前提下，实现精准、可控的智能问答。然而，构建一个可用的原型只是第一步；要让它真正服务于业务，必须解决持续迭代、稳定部署和高效运维的问题。

这正是 DevOps 的主场。当我们将 Langchain-Chatchat 纳入标准的 CI/CD 流水线，AI 应用便从“研究员的玩具”蜕变为“可量产的工业品”。代码更新、知识库刷新、模型切换、环境部署——所有环节均可自动化执行，版本可追溯，故障可回滚。这种融合不仅提升了交付效率，更赋予了 AI 系统应有的工程严谨性。

从文档到答案：Langchain-Chatchat 的工作流拆解

Langchain-Chatchat 的核心价值在于其对 RAG 范式的完整实现。整个流程可以理解为一场“信息寻宝”：用户提问是线索，系统要在海量文档碎片中找出最相关的片段，并引导 LLM 基于这些事实作答，从而有效抑制“一本正经地胡说八道”。

这个过程始于文档加载。系统支持 PDF、Word、PPT、TXT 等多种格式，背后依赖 PyPDF2、python-docx 等解析库提取原始文本。但原始文档通常很长，直接喂给模型既低效又容易丢失上下文。因此，文本分块是关键一步。使用RecursiveCharacterTextSplitter这类工具，按段落、句子边界智能切分，确保每个文本块语义相对完整，同时设置适当的重叠（chunk_overlap），避免关键信息被截断。

接下来是“向量化”——将文字转化为机器可计算的高维向量。这里的选择至关重要，尤其对于中文场景。通用英文嵌入模型（如 OpenAI 的 text-embedding-ada-002）在中文任务上表现平平。而像BGE（Bidirectional Guided Encoder）这样的中文优化模型，专为中文语义理解设计，在相似度匹配上准确率显著更高。这些向量被存入 FAISS、Chroma 或 Milvus 等向量数据库，构建出高效的“知识索引”。

当用户提问时，问题本身也被同一嵌入模型转化为向量。系统在向量空间中进行近似最近邻搜索（ANN），快速定位 Top-K 个最相关的内容块。最终，这些内容块与原始问题一起，按照预设的 Prompt 模板拼接，送入 LLM（如 ChatGLM3、Qwen 或 Llama3）生成自然流畅的回答。

from langchain_community.document_loaders import PyPDFLoader from langchain_text_splitters import RecursiveCharacterTextSplitter from langchain_community.embeddings import HuggingFaceEmbeddings from langchain_community.vectorstores import FAISS # 1. 加载PDF文档 loader = PyPDFLoader("knowledge.pdf") pages = loader.load() # 2. 文本分块 text_splitter = RecursiveCharacterTextSplitter( chunk_size=500, chunk_overlap=50 ) docs = text_splitter.split_documents(pages) # 3. 初始化中文嵌入模型 embedding_model = HuggingFaceEmbeddings(model_name="BAAI/bge-small-zh-v1.5") # 4. 构建向量数据库 vectorstore = FAISS.from_documents(docs, embedding_model) # 5. 保存本地索引 vectorstore.save_local("vectorstore/faiss_index")

这段代码看似简单，却是整个知识库构建的基石。在实际工程中，我们往往会将其封装成独立的脚本或服务，以便在 CI/CD 流程中灵活调用。例如，当检测到新的政策文件被提交到 Git 仓库时，自动触发该脚本重建索引，确保知识库始终最新。

自动化流水线：让 AI 部署不再“人肉操作”

如果每次修改一行提示词或更新一份文档，都需要手动打包镜像、登录服务器、重启服务，那再先进的 AI 系统也会被拖垮。CI/CD 的意义，就是把这套重复、易错的操作标准化、自动化。

典型的集成流程始于一次git push。当开发者将代码合并到主分支，CI/CD 平台（如 GitLab CI、Jenkins）立即响应，拉取最新代码。首先运行单元测试，验证核心模块（如文档解析、向量检索）的功能正确性。这步看似基础，却能拦截大量低级错误。

紧接着是构建阶段。使用 Dockerfile 将应用代码、Python 依赖、配置文件打包成容器镜像。这里有个重要考量：模型体积巨大。若将 LLM 或嵌入模型直接打进镜像，会导致镜像臃肿（数十GB），严重影响构建和推送速度。更优的做法是分离关注点——镜像只包含运行时环境和轻量配置，模型则通过外部服务（如 vLLM 部署的推理 API）提供，或在容器启动时从对象存储（如 S3、MinIO）动态下载。这样既能保持镜像精简，又能灵活切换不同模型版本。

# .gitlab-ci.yml 示例 stages: - test - build - deploy variables: IMAGE_NAME: registry.example.com/langchain-chatchat TAG: $CI_COMMIT_SHORT_SHA test: stage: test image: python:3.10-slim before_script: - pip install -r requirements.txt script: - pytest tests/ --cov=app/ build: stage: build image: docker:20.10 services: - docker:20.10-dind before_script: - docker login -u $CI_REGISTRY_USER -p $CI_REGISTRY_PASSWORD $CI_REGISTRY script: - docker build -t $IMAGE_NAME:$TAG . - docker push $IMAGE_NAME:$TAG deploy-prod: stage: deploy image: alpine/k8s:1.25.0 script: - kubectl config set-cluster k8s --server=$KUBE_SERVER --certificate-authority=/ca.crt - kubectl config set-credentials user --token=$KUBE_TOKEN - kubectl config set-context default --cluster=k8s --user=user - kubectl config use-context default - sed -i "s|LANGCHAIN_IMAGE|$IMAGE_NAME:$TAG|g" deployment.yaml - kubectl apply -f deployment.yaml only: - main

部署阶段交由 Kubernetes 接管。通过kubectl apply更新 Deployment 定义，K8s 会自动执行滚动更新：逐步创建新版本 Pod，待其就绪后，再终止旧 Pod。整个过程服务不中断，用户体验无感知。最后，流水线发起健康检查，调用/health或/chat接口验证服务是否正常响应，才算完成闭环。

工程实践中的挑战与权衡

落地过程中，有几个关键设计点值得深入探讨：

首先是知识库的更新策略。是否每次代码变更都重建整个知识库？显然不合理。理想做法是区分“代码发布”和“知识更新”两类事件。前者触发全量构建部署；后者仅需执行向量化脚本，并将新索引同步到持久化存储（如挂载的 PV 或远程向量库）。甚至可以进一步细化，只增量处理发生变化的文档，大幅提升效率。

其次是数据持久化。向量数据库的索引文件必须持久化存储。若仅存于容器内部，Pod 重启即丢失。解决方案是使用 Kubernetes 的 PersistentVolume（PV）和 PersistentVolumeClaim（PVC），将索引目录挂载为共享存储。这样即使服务升级或节点故障，知识资产依然安全。

安全方面，API 密钥、数据库密码等绝不能硬编码在代码或配置文件中。应使用 K8s Secrets 或 Hashicorp Vault 等专用密钥管理工具，在运行时注入环境变量。同时，生产环境与测试环境严格隔离，避免测试数据污染或资源争抢。

监控同样不可忽视。除了常规的 CPU、内存指标，还需关注业务层面的可观测性：API 平均响应时间、检索召回率、用户提问频率等。结合 Prometheus + Grafana 实现可视化，配合 Alertmanager 设置阈值告警，做到问题早发现、早处理。