当前位置：首页 > news >正文

千万级CSV清洗和Excel数据处理实战：零代码、零SQL，AI工作流完成统计分析与可视化大盘 | DT-Bot

news 2026/6/14 17:34:51

过去做千万级 CSV 清洗和 Excel 数据处理，往往要写 Python、写 SQL、接可视化工具，整个流程又重又慢，修改成本也高。

尤其数据量到了百万级、千万级之后，格式不统一、字段混乱、脚本难维护、SQL 反复改等问题会越来越明显，业务人员也很难直接参与。

今天给大家介绍一个AI工作流的方式：

通过提示词驱动 AI 工作流，把数据清洗、统计分析和可视化大盘放到一套流程里完成。零代码、零 SQL，本地就能处理千万级 CSV/Excel 数据。即使你是小白也能轻松完成。

一、工作原理

DTBot工作流将整个数据处理流程拆成多个可协同工作的智能体，用户只需要输入提示词，系统就会按顺序完成文件读取、数据清洗、入库、统计分析和结果导出。

在整个过程中，喂给 AI 的只有表格的表头和任务提示词，而不是整表原始数据，因此数据是绝对安全的。真正的数据处理动作都在本地完成，包括文件解析、表格清洗、数据入库、SQL 统计和结果导出。

工作流核心的5个智能体：

文件助手
内容清洗器
数据入库
表 SQL 统计
导出报表

只用这些智能体就可以完成所有的工作，下面我来一一介绍这五大智能体。

1.1 文件助手

”文件助手“是用来对磁盘文件进行操作的，只需输入提示词描述，如下案例：

创建文件夹：在 F:\data 下新建文件夹 reports
写入文件：向 F:\data\readme.txt 写入“hello”，存在则覆盖
复制文件：复制 F:\data\a.csv 到 F:\data\backup\a.csv，覆盖旧文件
移动文件：移动 F:\data\tmp\b.xlsx 到 F:\data\archive\b.xlsx
重命名：将 F:\data\old.csv 重命名为 new.csv（同目录）
列出文件：列出 F:\data 下前 5 个 csv 或 xlsx 文件
查找文件：查找文件名匹配 report_\d+.xlsx 的文件，最多5个
计算哈希：计算 F:\data\file.zip 的 SHA-256 哈希值
压缩文件：将 a.csv 和 b.csv 打包成 F:\data\csv.zip，允许覆盖
解压文件：解压 csv.zip 到 F:\data\unzipped，不覆盖已有文件

”文件助手“ 内置了Python Agent，通过AI将你的提示词进行理解成python代码，然后通过内置的python执行引擎去执行，全程无需你关心。

考虑到数据安全，我们移除了不安全的代码操作，比如：删除，网络下载，执行系统命令等，文件助手只能对文件进行操作，其他的都是非法！！

通过文件阻助手，我们就可以获取到要进行数据清洗统计的源表格文件，然后给后续智能体使用，如下配置图：

1.2 内容清洗器

”内容清洗器“负责处理原始数据中的脏数据问题，例如时间格式不统一、字段值写法不一致、空值、异常值、表头命名混乱等。用户只需要用自然语言描述清洗要求。

如下提示词案例：

删除“客户名称”列中的“有限公司”后，再删除前后空格。
将“在职状态”中的“已离岗”替换成“离职”后，再将“在岗”替换成“在职”。
把 “登记日期” 列（格式：2024/09/12）提取出季度。
从“商品规格”中先提取容量信息后，再提取包装数量。
把 “折扣” 列统一转成两位小数。
把 “完成时间”（格式：“2024年9月14日”）和 “开始时间” （格式：“2024年9月14日”）计算相差天数。
把 “手机号” 列为空的，用同一行的 “联系方式” 列补。
将“手机号”列移动到“姓名”列后面。
将“用户ID”列改成“用户编号”。
将“开户地址”列按空格拆分成“省”“市”“区”三列，原始“开户地址”列要保留。
将“省”“市”“区”三列用“-”连接，合并成新列“详细地址”。
删除“基本工资”小于 5000 的员工记录。
只保留“入职日期”在 2025-01-01 之后的记录。
先按“部门”升序，再按“基本工资”降序排序。
按“手机号”去重，只保留每个手机号一条记录。
筛选出“手机号”重复的记录。
按“入职日期”从近到远排序，只保留前 20 条。

基本上能满足所有的清洗需求，内置了Python Agent 和SQL Agent来处理这些清洗。并且内置了流式处理器，配合多进程，多CPU核心能够在1分钟内处理千万量级的数据清洗请求。

传统的pandas库，在数据量千万量级时，绝对会内存溢出，这也恰恰是DTBot的优势。

下面是一个案例配置的清洗案例，如图：

1.3数据入库

”数据入库“ 是将上一个智能体输出的表格文件，转成表入到数据库里面后续好进行SQL统计。内置了DuckDB本地数据库，数据全程落到本地磁盘。

为什么要选择DuckDB ？它的主要优势如下：

本地运行：不需要搭数据库服务，直接在本机就能跑
对大文件友好：处理百万级、千万级数据，比 pandas 更不容易爆内存
SQL 友好：支持标准 SQL，做筛选、聚合、关联、透视都很方便
分析性能好：做统计分析、分组汇总、大表 join，通常比传统 Python 表格处理更快
列式执行：更适合 OLAP 分析，不像传统行式数据库那样偏事务
资源利用效率高：对 CPU 多核利用和大数据扫描通常做得不错

这个智能体无需AI提示词，它只是在本地开启了一个数据库，并把表格转成数据库的表，证明你的这个表格要参与后面SQL统计了，下面是配置的案例图：

1.4表 SQL 统计

”表 SQL 统计“负责根据用户的分析目标生成统计查询逻辑，完成分组、汇总、关联、筛选、排序、透视等数据处理任务。用户不需要自己写 SQL，只需要描述需求，智能体就会自动生成并执行对应的统计分析过程。

这个智能体实现比较复杂，主要是通过SQL Agent来实现， AI通常不能直接理解好用户统计语义，为了稳定性，我们设计了5层主要组件：

意图路由
表，字段AI抽取
结构化DSL输出
SQL编译系统
出错react

相比传统的直接问AI大模型：”帮我生成SQL “要稳定的多，借助DuckDB数据库轻松的就完成千万量级的SQL统计。

DTBot工作流还可以回溯您的SQL提示词，你可以查看系统到底生成了什么样子的SQL？ SQL到底统计的是什么？这样你就能知道统计的到底是否正确，如图：

下面小编介绍一下”表SQL统计“ 支持的提示词案例。

单表基础统计

这是最常见的一类场景。也就是围绕一张已经整理好的表，做汇总、分组、排序和排行分析。

例如你可以输入下面这些提示词：

统计表总数。
按“部门”分组，统计每个部门的人数。
按“城市”分组，统计销售额总和，并按销售额从高到低排序。
统计“退款金额”大于100的订单数量。
按“班组”分组，统计平均工资，并取前10个班组。

这些需求本质上都属于单表统计，只不过统计口径、分组字段和排序方式不同。

单表复杂分析

有些需求虽然还是单表，但不再只是简单计数或求和，而是带有更多分析意图。比如同比、环比、占比、分组内排行、Top N、结构占比等。

例如：

按“日期”统计每天销售额，并按日期升序输出。
按“部门”分组，统计人数，并计算每个部门人数占总人数的比例。
按“员工”分组，统计每个人的总业绩，并取前20名。
按“月份”分组，统计收入总额，并按月份输出趋势。
按“水果”分组，统计销售额总和，并计算每种水果销售额占总销售额的比例。

这类需求的重点已经不只是“得到结果”，而是得到一个更适合继续看趋势、做比较、看结构的统计结果表。

多表关联统计

这类场景比单表更进一步。数据不是只在一张表里，而是已经分散在多张表中，比如订单表、退款表、员工表、工资表、考勤表、商品表、库存表等。此时就不只是简单分组统计，而是需要先把多个表按业务关系关联起来，再做分析。

例如：

将订单表和退款表按订单ID关联，统计每个商品的退款率。
将员工表和工资表按员工ID关联，统计每个部门的平均工资。
将销售表和库存表按SKU编码关联，统计高销量但低库存的商品。
将招聘表和入职表按候选人ID关联，统计每个招聘渠道的最终入职转化率。
将客户表和订单表按客户ID关联，统计不同客户等级的复购情况。

这类需求如果手工写 SQL，往往容易卡在关联键、统计口径和聚合层级上；而自然语言驱动的表统计，更适合让业务人员直接描述目标。

模糊统计目标分析

这是一个很有价值、也很适合实际业务的场景。很多用户在做数据分析时，并不是一开始就能准确说出“按什么字段分组、统计哪个指标、排序规则是什么”，而是只有一个相对模糊的业务目标。比如他知道自己想看“哪个品牌卖得最好”“哪些客户最有价值”“哪个渠道效果最好”，但并不一定能立即拆解成标准 SQL 或完整统计口径。

这时候，用户不需要先把统计逻辑想得特别清楚，只需要先描述自己的分析目标，系统会去理解这类模糊提示词背后的统计意图，再自动收口成对应的分析任务。这也是表统计工具一个很重要的亮点。

例如：