当前位置：首页 > news >正文

大模型+数据分析：不是Prompt调得好就行，Text2SQL核心在Schema治理与后处理

news 2026/5/31 2:45:18

一、为什么你的Text2SQL只能当玩具？

过去一年，几乎所有数据团队都试过“自然语言查数据库”：接个大模型API，写几句Prompt，就能让用户输入“上个月华东区销售额TOP10产品”自动生成SQL。Demo很惊艳，一上生产就崩盘：

字段名猜错：把order_amount写成sales_amt，SQL直接报错；
关联关系乱连：多表JOIN时张冠李戴，查出完全错误的数据；
业务术语不理解：“活跃用户”在库里没有对应字段，模型瞎编WHERE条件；
无权限控制：普通员工一句话查出全量薪资数据，安全审计直接亮红灯。

问题不在大模型不够聪明，而在我们把Text2SQL当成了纯LLM任务，而非数据工程任务。真正能落地的自然语言查询系统，LLM只占30%的工作量，剩下70%是Schema治理、知识增强、结果校验与权限管控。

这篇文章不讲理论，直接拆解一套在生产环境稳定运行6个月的Text2SQL架构，包含完整流程图、关键代码片段与踩坑记录，帮你跳过所有弯路。

二、企业级Text2SQL核心架构：四层防御体系

先看整体架构，这不是简单的“Prompt→SQL→执行”线性流程，而是带反馈闭环的工程化系统：

这套架构的核心思想是：不信任LLM的单次输出，用工程手段兜底。下面逐层拆解关键实现。

三、第一层：Schema治理——Text2SQL的地基

90%的SQL错误源于Schema信息缺失或混乱。别直接把SHOW CREATE TABLE的结果塞给LLM，必须做三层治理：

1. 元数据标准化

为每张表、每个字段补充三类信息：

业务中文名：cust_id→ “客户唯一标识（非自增ID）”；
枚举值映射：status=1→ “已支付”，status=2→ “已退款”；
关联关系显式声明：orders.cust_id = customers.id，而非靠LLM猜测。

存储格式推荐YAML，便于版本管理与人工维护：

table:ordersdescription:"订单主表，记录交易全流程"columns:-name:order_amountcn_name:"实付金额（含优惠，单位：元）"type:DECIMAL(12,2)note:"不含运费，退款订单为负数"-name:statuscn_name:"订单状态"enum:{1:"待支付",2:"已支付",3:"已取消",4:"已退款"}relations:-target:customerscondition:"orders.cust_id = customers.id"type:"many-to-one"

2. 动态Schema检索

不要把所有表结构塞进Prompt！当表超过20张时，Token爆炸且干扰严重。采用向量检索+关键词匹配混合召回：

将表/字段的中文名、描述、示例值向量化存入Milvus/Weaviate；
用户提问先提取实体词，召回Top-K相关Schema片段；
仅将召回结果注入Prompt，大幅降低噪声。

实测：50张表的场景下，动态检索比全量注入准确率提升28%，Token消耗减少70%。

3. 业务术语词典

建立“自然语言→数据库表达”的映射表，解决领域黑话问题：

“新客” →first_order_date >= DATE_SUB(CURDATE(), INTERVAL 30 DAY)
“高价值用户” →lifetime_value > 5000 AND order_count >= 5

该词典由数据分析师维护，作为RAG知识源参与SQL生成，避免LLM自行臆造逻辑。

四、第二层：SQL生成与校验——不让错误SQL流出

LLM生成策略优化

Few-shot样本精选：不按相似度选示例，按“表组合+查询类型”分层采样，覆盖JOIN、聚合、子查询等高频模式；
强制输出约束：要求LLM同时输出SQL+推理过程+置信度，低置信度结果自动触发二次生成；
模板优先原则：对于高频查询（如日报、周报），预置参数化SQL模板，LLM仅填充参数，杜绝结构错误。

三重校验机制

这是准确率从60%提升到95%的关键：

校验层级	检查内容	失败处理
语法校验	SQL语法合法性、表/字段存在性	调用sqlparse/sqlglot自动修复简单错误
语义校验	JOIN条件合理性、WHERE逻辑矛盾、聚合字段类型	结合Schema知识图谱验证，不通过则追问用户
安全校验	禁止DROP/UPDATE/DELETE、限制查询行数、脱敏敏感字段	拦截并记录审计日志

特别注意：语义校验不能只靠规则。我们引入了轻量级SQL解释器，模拟执行计划检查是否会产生笛卡尔积、全表扫描等危险操作，提前阻断性能炸弹。