【LLM 落地实战】大模型微调下半场:如何用 Python 将 100 篇 PDF 文档自动清洗为微调“黄金数据集”
大模型微调下半场:如何用 Python 将 100 篇 PDF 文档自动清洗为微调“黄金数据集”
上一篇我们用一张 RTX 3060 游戏本把 Qwen3.5:2b 变成了“赛博牛马”,这一篇我们来搞定让牛马开工的“草料”——数据集。
引言:你难道真打算手敲 500 条数据?
在上一篇文章里,我们用一台游戏本、30 分钟时间,成功完成了 Qwen3.5:2b 的 LoRA 微调。很多小伙伴看完热血沸腾,连夜把压箱底的公司内部管理制度、行业白皮书、甚至女朋友的聊天记录都翻了出来,准备大干一场。
然而,当看到 LLaMA-Factory 要求的标准 Alpaca 格式(包含instruction、input、output的 JSON 文件)时,大家都沉默了……
“500 条数据,难道要我手动一条一条去复制、粘贴、手敲提问、再总结回答吗?”
醒醒!我们是程序员,不是赛博流水线组装工!
要是靠人工去抠 100 篇 PDF 文档,不等模型微调完,你的颈椎病可能就先完成“深度微调”了。今天,我们就来玩一把高级的:“左脚踩右脚”螺旋升天法。利用 Python 脚本配合大模型 API(如 DeepSeek 或 GPT-4o),把那 100 篇干瘪的 PDF 文档,全自动揉碎、清洗、提炼,变成一碗香喷喷的“黄金微调数据集”。
第一步:原始数据的“排毒”清洗
PDF 这个发明,简直是自然语言处理(NLP)界的“万恶之源”。它在显示上是完美的,但在底层文本流里,可能充斥着各种莫名其妙的换行、页眉页脚、甚至是不可见的乱码。如果我们直接把这些“毒素”喂给大模型,微
