当前位置: 首页 > news >正文

告别手动解析,Python 加 AI 让网页抓取更稳定

传统爬虫的“阿喀琉斯之踵”

做过网页抓取的朋友都有过这样的经历:好不容易写好了正则表达式或 CSS 选择器,脚本运行得完美无缺。然而,某天早上醒来,目标网站悄悄更新了前端框架,或者只是调整了商品价格的 DOM 结构,你的程序瞬间报错,返回一堆空值。这时候,你不得不重新打开浏览器开发者工具,定位新节点,修改代码,再次部署。这种“猫鼠游戏”在传统基于规则的爬虫开发中几乎无法避免,尤其是面对电商、新闻等高频变动的站点时,维护成本往往超过了开发成本。

问题的核心在于,传统爬虫依赖的是精确的结构匹配,而网页的本质是语义内容的呈现。当结构服务于呈现时,一旦呈现方式改变,结构就失效了。解决之道,在于引入“理解能力”,让程序不再死记硬背“价格在第 3 个 div 的第 2 个 span 里”,而是学会识别“这是价格”。这正是 Python 结合大语言模型(LLM)带来的范式转变。

从“规则匹配”到“语义理解”的工作流

新的解决方案并非完全抛弃 Python 生态,而是重新划分了职责边界。在这个架构中,Python 依然负责它最擅长的部分:网络请求、并发控制、重试机制以及数据持久化。而原本最脆弱、最耗时的 HTML 解析与字段提取环节,则交给了 AI 模型。

整个流程可以概括为三个步骤:获取与清洗语义提取验证与存储

首先,利用requests库获取页面源码。但这步之后,我们不再直接编写复杂的 XPath。相反,我们使用BeautifulSoup进行“降噪”处理。网页中大量的<script><style>标签以及无关的广告代码,不仅占用 Token,还会干扰模型的判断。通过简单的遍历删除这些噪声,我们能得到一个只保留核心文本和基础结构的“干净 HTML"。

接下来是关键一步:将清洗后的 HTML 作为上下文输入给大模型。我们需要设计一段清晰的 Prompt,告诉模型:“这是一段商品页面的 HTML,请从中提取商品名称、价格和货币单位,并以严格的 JSON 格式返回。”模型基于其强大的语义理解能力,能够忽略标签 class 名的变化,直接锁定内容含义。即使网站将价格从<span class="price">改成了<div>实战:构建抗变的电商数据提取器

让我们通过一个具体的电商商品页抓取案例,看看代码是如何落地的。假设我们要抓取某演示站点的宝可梦商品信息。

环境准备与依赖安装

你需要安装基础的 HTTP 请求库、HTML 解析库以及大模型 SDK:

pipinstallrequests beautifulsoup4 openai

核心代码实现

以下是一个完整的极简实现,展示了如何串联上述流程:

importjsonimportreimportrequestsfrombs4importBeautifulSoupfromopenaiimportOpenAI# 配置项TARGET_URL="https://scrapeme.live/shop/Bulbasaur/"OUTPUT_FILE="products.jsonl"MAX_TOKENS_LIMIT=120000# 防止 HTML 过长超出模型限制deffetch_and_clean_html(url):"""获取页面并清洗噪声"""headers={"User-Agent":"Mozilla/5.0 (compatible; AIScraper/1.0)"}response=requests.get(url,headers=headers,timeout=30)response.raise_for_status()soup=BeautifulSoup(response.text,"html.parser")# 移除脚本和样式标签,减少干扰fortaginsoup(["script","style","noscript","header","footer"]):tag.decompose()# 获取 body 内容并压缩空白字符clean_text=re.sub(r"\s+"," ",soup.body.get_text(separator=" ",strip=True))returnclean_text[:MAX_TOKENS_LIMIT]defextract_with_ai(html_content):"""调用 AI 模型进行结构化提取"""client=OpenAI()# 需配置 OPENAI_API_KEY 环境变量# 定义期望的 JSON 结构json_schema={"type":"object","properties":{"product_name":{"type":"string"},"price":{"type":"string"},"currency":{"type":"string"}},"required":["product_name","price","currency"],"additionalProperties":False}response=client.chat.completions.create(model="gpt-4o",# 或其他支持 JSON Mode 的模型messages=[{"role":"system","content":"你是一个数据提取助手。请从提供的 HTML 文本中提取商品信息,仅返回符合 Schema 的 JSON,不要包含 Markdown 标记或其他解释。"},{"role":"user","content":f"URL:{TARGET_URL}\n\nHTML Content:\n{html_content}"}],response_format={"type":"json_object","schema":json_schema})returnjson.loads(response.choices[0].message.content)defmain():try:# 1. 获取与清洗print("正在获取并清洗页面...")clean_html=fetch_and_clean_html(TARGET_URL)# 2. AI 语义提取print("正在调用 AI 进行语义分析...")data=extract_with_ai(clean_html)# 3. 持久化存储withopen(OUTPUT_FILE,"a",encoding="utf-8")asf:f.write(json.dumps(data,ensure_ascii=False)+"\n")print(f"提取成功:{data}")exceptExceptionase:print(f"发生错误:{e}")if__name__=="__main__":main()

方案对比与优势分析

在这个例子中,如果网站明天将价格标签从div.product-price改为span.cost-value,传统的 BeautifulSoup 或 Scrapy 代码必须修改选择器逻辑才能运行。而在上述 AI 方案中,只要页面上依然清晰展示了价格数字和货币符号,模型就能准确识别并输出 JSON,代码无需任何改动。

这种基于语义的提取方式,将开发者的精力从“维护选择器”转移到了“设计 Prompt"和“验证数据质量”上。虽然单次调用的成本略高于本地解析,但考虑到大幅降低的维护人力和时间成本,特别是在面对反爬策略复杂、页面结构频繁迭代的场景时,这种“以算力换稳定性”的策略显得尤为划算。

通过将 Python 的工程化能力与大模型的认知能力结合,我们不再是编写脆弱的规则脚本,而是在构建具备一定“容错性”和“适应性”的智能数据管道。这不仅是技术的升级,更是解决数据采集痛点的一种更优雅的思维路径。

http://www.cnnetsun.cn/news/2616914.html

相关文章:

  • 天若OCR开源版:3分钟掌握完全离线的文字识别神器
  • 别再被IEEE模板坑了!手把手教你用VSCode+LaTeX搞定期刊论文排版(附字体/子图/编译问题解决)
  • 华为/思科路由器选路实战:当直连路由‘失效’,你的数据包去了哪里?
  • 即梦怎么去水印软件?实测4款好用工具
  • Arduino电位器控制LED交替闪烁:从模拟输入到硬件非门电路设计
  • PowerToys深度汉化:Windows系统增强工具的终极中文解决方案
  • Vitis IDE独立化背后:为什么你的Vivado 2022找不到SDK了?深度解析Platform工作流
  • CPU架构下LLM推理优化:挑战与Sandwich框架突破
  • Postman环境变量管理实战:从本地调试到CI/CD流水线,你的变量真的导对了吗?
  • 便携嵌入式系统测试平台ETest_PT
  • 你的Win11卡顿吗?可能是dwm.exe在‘偷’内存,一个驱动助手就能搞定
  • ABAP 动态编程全景参考,从 Field Symbol 到 RTTI、RTTC 与动态调用
  • AMDP 完全参考,从 ABAP 类到 SAP HANA SQLScript 的一条干净通道
  • 当CMAQ遇上WRF飓风数据:一次完整的空气质量模拟实战配置复盘
  • 如何高效使用FastbootEnhance:Windows平台最直观的Fastboot工具箱与Payload提取器完整指南
  • Cadence 17.2救星:三步搞定旧版.brd/.dra文件,告别报错打不开
  • AI医生来了!北京协和医院用GPT-4诊断罕见病,准确率达92%
  • JiYuTrainer终极指南:快速解除极域电子教室控制的完整教程
  • 别再硬算非线性成本了!用Python+Gurobi搞定分段线性化(PWL),优化运输问题效率翻倍
  • FastCopy隐藏玩法:用过滤器和日志功能,自动整理你的下载文件夹和影音库
  • 8051内存管理与PPAGE配置实战指南
  • 高维长记忆时间序列协方差矩阵估计:块自助法原理与实战
  • 从红日靶场(vulnstack)实战出发:手把手教你复现Web渗透到内网横向的完整链路
  • 从ISO 13400-2 2012到2019:DoIP引入TLS后,测试工程师面临的3个真实挑战与应对策略
  • 告别模型丢失!详解Ansys Workbench中External Data模块映射Icepak热载荷的正确姿势
  • 别再手动调顶点了!用Maya/Blender/Houdini三件套,5分钟搞定UE角色表情动画导入
  • 如何掌握Exclusively Dark数据集:低光照计算机视觉的终极实战指南
  • 基于Whisper与Ollama构建本地语音AI助手:从语音识别到自动化执行
  • Linux桌面开发者的效率利器:用Git Cola + SSH免密推送,告别重复输入密码的烦恼
  • 牛客网2026互联网大厂Java面试题汇总,附官方级答案解析