当前位置：首页 > news >正文

告别手动解析，Python 加 AI 让网页抓取更稳定

news 2026/5/31 22:46:04

传统爬虫的“阿喀琉斯之踵”

做过网页抓取的朋友都有过这样的经历：好不容易写好了正则表达式或 CSS 选择器，脚本运行得完美无缺。然而，某天早上醒来，目标网站悄悄更新了前端框架，或者只是调整了商品价格的 DOM 结构，你的程序瞬间报错，返回一堆空值。这时候，你不得不重新打开浏览器开发者工具，定位新节点，修改代码，再次部署。这种“猫鼠游戏”在传统基于规则的爬虫开发中几乎无法避免，尤其是面对电商、新闻等高频变动的站点时，维护成本往往超过了开发成本。

问题的核心在于，传统爬虫依赖的是精确的结构匹配，而网页的本质是语义内容的呈现。当结构服务于呈现时，一旦呈现方式改变，结构就失效了。解决之道，在于引入“理解能力”，让程序不再死记硬背“价格在第 3 个 div 的第 2 个 span 里”，而是学会识别“这是价格”。这正是 Python 结合大语言模型（LLM）带来的范式转变。

从“规则匹配”到“语义理解”的工作流

新的解决方案并非完全抛弃 Python 生态，而是重新划分了职责边界。在这个架构中，Python 依然负责它最擅长的部分：网络请求、并发控制、重试机制以及数据持久化。而原本最脆弱、最耗时的 HTML 解析与字段提取环节，则交给了 AI 模型。

整个流程可以概括为三个步骤：获取与清洗、语义提取、验证与存储。

首先，利用requests库获取页面源码。但这步之后，我们不再直接编写复杂的 XPath。相反，我们使用BeautifulSoup进行“降噪”处理。网页中大量的<script>、<style>标签以及无关的广告代码，不仅占用 Token，还会干扰模型的判断。通过简单的遍历删除这些噪声，我们能得到一个只保留核心文本和基础结构的“干净 HTML"。

接下来是关键一步：将清洗后的 HTML 作为上下文输入给大模型。我们需要设计一段清晰的 Prompt，告诉模型：“这是一段商品页面的 HTML，请从中提取商品名称、价格和货币单位，并以严格的 JSON 格式返回。”模型基于其强大的语义理解能力，能够忽略标签 class 名的变化，直接锁定内容含义。即使网站将价格从<span class="price">改成了<div>实战：构建抗变的电商数据提取器

让我们通过一个具体的电商商品页抓取案例，看看代码是如何落地的。假设我们要抓取某演示站点的宝可梦商品信息。

`环境准备与依赖安装`

你需要安装基础的 HTTP 请求库、HTML 解析库以及大模型 SDK：

pipinstallrequests beautifulsoup4 openai

`核心代码实现`

以下是一个完整的极简实现，展示了如何串联上述流程：

importjsonimportreimportrequestsfrombs4importBeautifulSoupfromopenaiimportOpenAI# 配置项TARGET_URL="https://scrapeme.live/shop/Bulbasaur/"OUTPUT_FILE="products.jsonl"MAX_TOKENS_LIMIT=120000# 防止 HTML 过长超出模型限制deffetch_and_clean_html(url):"""获取页面并清洗噪声"""headers={"User-Agent":"Mozilla/5.0 (compatible; AIScraper/1.0)"}response=requests.get(url,headers=headers,timeout=30)response.raise_for_status()soup=BeautifulSoup(response.text,"html.parser")# 移除脚本和样式标签，减少干扰fortaginsoup(["script","style","noscript","header","footer"]):tag.decompose()# 获取 body 内容并压缩空白字符clean_text=re.sub(r"\s+"," ",soup.body.get_text(separator=" ",strip=True))returnclean_text[:MAX_TOKENS_LIMIT]defextract_with_ai(html_content):"""调用 AI 模型进行结构化提取"""client=OpenAI()# 需配置 OPENAI_API_KEY 环境变量# 定义期望的 JSON 结构json_schema={"type":"object","properties":{"product_name":{"type":"string"},"price":{"type":"string"},"currency":{"type":"string"}},"required":["product_name","price","currency"],"additionalProperties":False}response=client.chat.completions.create(model="gpt-4o",# 或其他支持 JSON Mode 的模型messages=[{"role":"system","content":"你是一个数据提取助手。请从提供的 HTML 文本中提取商品信息，仅返回符合 Schema 的 JSON，不要包含 Markdown 标记或其他解释。"},{"role":"user","content":f"URL:{TARGET_URL}\n\nHTML Content:\n{html_content}"}],response_format={"type":"json_object","schema":json_schema})returnjson.loads(response.choices[0].message.content)defmain():try:# 1. 获取与清洗print("正在获取并清洗页面...")clean_html=fetch_and_clean_html(TARGET_URL)# 2. AI 语义提取print("正在调用 AI 进行语义分析...")data=extract_with_ai(clean_html)# 3. 持久化存储withopen(OUTPUT_FILE,"a",encoding="utf-8")asf:f.write(json.dumps(data,ensure_ascii=False)+"\n")print(f"提取成功：{data}")exceptExceptionase:print(f"发生错误：{e}")if__name__=="__main__":main()

`方案对比与优势分析`

在这个例子中，如果网站明天将价格标签从div.product-price改为span.cost-value，传统的 BeautifulSoup 或 Scrapy 代码必须修改选择器逻辑才能运行。而在上述 AI 方案中，只要页面上依然清晰展示了价格数字和货币符号，模型就能准确识别并输出 JSON，代码无需任何改动。

这种基于语义的提取方式，将开发者的精力从“维护选择器”转移到了“设计 Prompt"和“验证数据质量”上。虽然单次调用的成本略高于本地解析，但考虑到大幅降低的维护人力和时间成本，特别是在面对反爬策略复杂、页面结构频繁迭代的场景时，这种“以算力换稳定性”的策略显得尤为划算。

通过将 Python 的工程化能力与大模型的认知能力结合，我们不再是编写脆弱的规则脚本，而是在构建具备一定“容错性”和“适应性”的智能数据管道。这不仅是技术的升级，更是解决数据采集痛点的一种更优雅的思维路径。


查看全文


http://www.cnnetsun.cn/news/2616914.html



相关文章：

天若OCR开源版：3分钟掌握完全离线的文字识别神器


别再被IEEE模板坑了！手把手教你用VSCode+LaTeX搞定期刊论文排版（附字体/子图/编译问题解决）


华为/思科路由器选路实战：当直连路由‘失效’，你的数据包去了哪里？


即梦怎么去水印软件？实测4款好用工具


Arduino电位器控制LED交替闪烁：从模拟输入到硬件非门电路设计


PowerToys深度汉化：Windows系统增强工具的终极中文解决方案


Vitis IDE独立化背后：为什么你的Vivado 2022找不到SDK了？深度解析Platform工作流


CPU架构下LLM推理优化：挑战与Sandwich框架突破


Postman环境变量管理实战：从本地调试到CI/CD流水线，你的变量真的导对了吗？


便携嵌入式系统测试平台ETest_PT


你的Win11卡顿吗？可能是dwm.exe在‘偷’内存，一个驱动助手就能搞定


ABAP 动态编程全景参考，从 Field Symbol 到 RTTI、RTTC 与动态调用


AMDP 完全参考，从 ABAP 类到 SAP HANA SQLScript 的一条干净通道


当CMAQ遇上WRF飓风数据：一次完整的空气质量模拟实战配置复盘


如何高效使用FastbootEnhance：Windows平台最直观的Fastboot工具箱与Payload提取器完整指南


Cadence 17.2救星：三步搞定旧版.brd/.dra文件，告别报错打不开


AI医生来了！北京协和医院用GPT-4诊断罕见病，准确率达92%


JiYuTrainer终极指南：快速解除极域电子教室控制的完整教程


别再硬算非线性成本了！用Python+Gurobi搞定分段线性化(PWL)，优化运输问题效率翻倍


FastCopy隐藏玩法：用过滤器和日志功能，自动整理你的下载文件夹和影音库


8051内存管理与PPAGE配置实战指南


高维长记忆时间序列协方差矩阵估计：块自助法原理与实战


从红日靶场(vulnstack)实战出发：手把手教你复现Web渗透到内网横向的完整链路


从ISO 13400-2 2012到2019：DoIP引入TLS后，测试工程师面临的3个真实挑战与应对策略


告别模型丢失！详解Ansys Workbench中External Data模块映射Icepak热载荷的正确姿势


别再手动调顶点了！用Maya/Blender/Houdini三件套，5分钟搞定UE角色表情动画导入


如何掌握Exclusively Dark数据集：低光照计算机视觉的终极实战指南


基于Whisper与Ollama构建本地语音AI助手：从语音识别到自动化执行


Linux桌面开发者的效率利器：用Git Cola + SSH免密推送，告别重复输入密码的烦恼


牛客网2026互联网大厂Java面试题汇总，附官方级答案解析