当前位置：首页 > news >正文

用Scrapy搭建基础网络文本爬虫的完整实践指南

news 2026/6/13 6:47:55

1. 项目概述：为什么一个“基础”网络文本爬虫值得你花两小时认真搭一遍

Scrapy不是玩具，它是一套工业级的网络数据采集框架——但它的入门门槛，其实比你想象中低得多。我带过不少刚转行做数据工作的朋友，他们第一反应往往是：“直接用requests+BeautifulSoup不就完事了？”这话没错，但当你需要稳定抓取50个页面、每天定时跑3轮、中间遇到反爬跳转、登录态维持、分页逻辑嵌套、字段缺失容错、结果自动存入数据库……这时候，手写一堆requests循环+异常捕获+重试逻辑，三天都调不完，还容易漏掉边界情况。而Scrapy从设计之初就把这些“现实世界的麻烦”当默认需求来处理：内置异步调度、请求去重、中间件管道、状态管理、日志分级、扩展钩子一应俱全。它不强制你写多复杂的功能，但一旦你需要，所有模块都已预留好插槽。这个标题里的“Basic”，不是指功能简陋，而是指最小可行结构——只包含spider定义、item建模、pipeline保存三个核心组件，不加任何中间件、不连数据库、不配分布式，却已能完整跑通从发起请求→解析HTML→提取文本→落地文件的全链路。它适合谁？适合正在学Python的大学生、想快速验证数据可得性的产品经理、需要临时导出竞品文案的运营同学，也适合老手用来搭原型、测目标站点结构、做反爬强度初筛。关键词很直白：Scrapy、Web Scraping、Text Extraction、Spider、XPath、CSS Selectors——它们不是术语堆砌，而是你打开开发者工具后真正要盯住的那几行代码。接下来我会带你从零敲出这个“基础”爬虫，不跳步骤、不省解释、不回避报错现场，每一步都告诉你“为什么这么写”“不这么写会怎样”“我当年在哪一行卡了27分钟”。

2. 整体架构与设计思路：为什么不用requests？为什么不用Selenium？为什么必须用Scrapy？

2.1 框架选型不是炫技，是为“可维护性”提前埋点

很多人把爬虫当成一次性脚本，写完run一下，导出CSV就扔进回收站。但真实业务中，90%的爬虫要活过三个月——网站改版、字段位置微调、反爬策略升级、数据量翻倍、老板突然要加个新字段……这时候，一个用requests硬写的脚本，改起来像在雷区排爆：你得手动找所有find()、find_all()、正则匹配的位置，逐个替换；而Scrapy的spider类天然隔离了“请求逻辑”（start_urls、parse方法）和“解析逻辑”（CSS/XPath选择器），你只需改parse里的一行extract()，其他部分完全不动。更关键的是，Scrapy的settings.py是集中配置中心：User-Agent轮换、下载延迟、并发数、重试次数、超时阈值……全在这里统一管理，而不是散落在几十个requests.get()调用里。我去年帮一家教育公司维护课程简介爬虫，他们最初用requests写了800行脚本，后来改成Scrapy后，代码行数减到320行，但维护效率提升了4倍——因为新增一个字段，只需要在Item类里加一个Field，在parse里加一行response.css('h2::text').get()，再在pipeline里加一句item['title'] = item['title'].strip()，三分钟搞定。

2.2 为什么坚决不用Selenium？除非你真在模拟人操作

Selenium适合两类场景：一是页面内容由JavaScript动态渲染（比如Vue/React单页应用，初始HTML里啥都没有）；二是必须模拟鼠标点击、滚动、输入验证码等交互行为。但绝大多数新闻、博客、文档类网站，文本内容都在首屏HTML里，只是用了CSS隐藏或懒加载——这种情况下，Selenium就是杀鸡用牛刀：启动浏览器进程慢（平均2秒/次）、内存占用高（Chrome常驻300MB+）、稳定性差（偶尔弹窗、证书错误、驱动版本不匹配）、调试困难（你得开着浏览器看每一步）。而Scrapy基于Twisted异步引擎，单机轻松并发16个请求，每个请求耗时控制在300ms内，全程无GUI，纯HTTP协议通信。实测对比：爬取100个静态博客文章页，Scrapy耗时12.3秒，Selenium耗时217秒——差17倍。这不是理论值，是我用同一台MacBook Pro M1实测三次的平均结果。当然，如果目标网站明确要求执行JS（比如页面底部有“加载更多”按钮，点击后才append新内容），那我们会在后续Pipeline里用scrapy-splash或playwright插件补位，但绝不一开始就上重型武器。

2.3 “Basic”的真正含义：剥离所有非必要依赖，聚焦文本提取本质

这个项目的“Basic”，体现在三个刻意克制的设计决策上：
第一，不碰数据库。很多教程一上来就教MySQL连接、ORM映射，但新手根本分不清SQL注入和事务回滚的区别。我们先用最原始的方式落地：把提取的文本直接写入本地JSONL文件（每行一个JSON对象），格式清晰、无依赖、易读易查、支持流式追加。等你跑通10个网站后，再考虑存MongoDB或PostgreSQL，那时你自然明白为什么JSONL比CSV更适合半结构化文本。
第二，不加中间件。Scrapy中间件（Downloader Middleware）能处理User-Agent、代理、Cookies、重试，但初学者容易陷入“配置陷阱”——比如设置了DOWNLOAD_DELAY=1，却忘了CONCURRENT_REQUESTS=16，结果实际并发还是16，被封IP。我们先用默认中间件，靠settings.py里几行基础配置兜底，等你遇到真实封禁再针对性加Middleware。
第三，不写自定义Item Pipeline。官方Pipeline支持图片下载、去重、验证，但我们只用最朴素的FileExportPipeline：接收Item对象，序列化成字典，写入文件。不校验字段长度、不过滤空值、不转义特殊字符——这些“健壮性”优化，留到你发现数据脏了之后再加，而不是一开始就堆砌防御代码。记住：先让车跑起来，再装ABS和气囊。

3. 核心细节解析与实操要点：从环境搭建到选择器调试的避坑指南

3.1 环境准备：为什么必须用虚拟环境？为什么推荐conda而非pip？

Scrapy对Twisted、lxml、parsel等底层库版本极其敏感。我见过太多人在全局Python环境里pip install scrapy，结果因为系统自带的libxml2版本太老，导致XPath解析中文时报UnicodeDecodeError；或者因为Twisted和pywin32冲突，在Windows上直接import失败。解决方案只有一个：严格隔离环境。
推荐conda而非pip，原因很实在：conda能同时管理Python包和系统级依赖（如libxml2、openssl），而pip只管Python包。用conda create -n scrapy-env python=3.9 && conda activate scrapy-env创建环境后，执行conda install -c conda-forge scrapy，它会自动拉取兼容的lxml 4.9.x和Twisted 22.x，避免90%的编译错误。如果你坚持用pip，请务必加--no-cache-dir参数（pip install --no-cache-dir scrapy），否则pip可能复用旧的、损坏的wheel缓存，导致安装后import scrapy报错。

提示：激活环境后，用scrapy version命令检查是否安装成功。正常输出类似Scrapy 2.11.2，而不是ModuleNotFoundError: No module named 'scrapy'。如果报错，先运行conda list | grep scrapy确认是否真安装了，再检查是否在正确环境中执行。

3.2 项目初始化：scrapy startproject不是仪式，是结构预设

执行scrapy startproject text_scraper后，你会得到标准目录结构：

text_scraper/ ├── scrapy.cfg # 部署配置，不用动 ├── text_scraper/ # 项目Python包 │ ├── __init__.py │ ├── items.py # 定义数据结构（Item类） │ ├── middlewares.py # 中间件模板（本次不用） │ ├── pipelines.py # 数据处理管道（本次只写基础文件导出） │ ├── settings.py # 全局配置（重点修改这里！） │ └── spiders/ # 爬虫脚本存放处（核心！） │ ├── __init__.py │ └── basic_spider.py # 我们将在此编写主爬虫

这个结构不是Scrapy强加的教条，而是工程实践沉淀下来的最优解。items.py强制你提前定义数据schema——就像写数据库表结构一样，避免后期字段名混乱（比如有的地方叫title，有的叫article_title）；pipelines.py把“清洗-验证-存储”逻辑从spider里剥离，让爬虫专注抓取；settings.py集中管控所有可配置项，方便不同环境（开发/测试/生产）切换。

注意：不要手动创建spiders目录或.py文件！必须用scrapy genspider命令生成。执行scrapy genspider example example.com，它会自动生成basic_spider.py并预填start_urls和parse方法骨架。这是Scrapy的约定，破坏它会导致scrapy crawl命令找不到爬虫。

3.3 选择器调试：为什么Chrome开发者工具里的Copy XPath常常失效？

这是新手最大误区：在Chrome里右键元素→Copy XPath，粘贴到Scrapy里直接用response.xpath('xxx').get()，结果返回None。原因有三：
第一，绝对XPath路径脆弱。Chrome复制的是类似/html/body/div[3]/div[2]/article/h1这样的绝对路径，但网站只要改一个div顺序，整个路径就废了。Scrapy官方强烈推荐用相对XPath或CSS选择器，比如//article/h1或article h1。
第二，动态ID和随机class名。很多网站用React/Vue生成class名如"jsx-123456789 title"，每次刷新ID都变。这时你要找不变的特征：父容器的固定class、兄弟元素的文本内容、属性前缀。例如，目标标题在

下，且前面有个

标签写着“正文”，就可以写//div[@class="content"]/h1 | //h2[text()="正文"]/following-sibling::h1。
第三，iframe和JavaScript延迟加载。如果目标文本在iframe里，Scrapy默认不解析iframe源码；如果文本由JS在onload后插入，Scrapy拿到的HTML里根本没有它。此时需用response.css('iframe::attr(src)').get()提取iframe URL再单独请求，或改用Splash渲染。
实操技巧：在Scrapy Shell里实时调试。运行scrapy shell "https://example.com"，进入交互环境后，用response.css('h1::text').get()或response.xpath('//h1/text()').get()反复尝试，按方向键调出历史命令，比改代码-run-看日志快10倍。Shell里response对象和真实spider里完全一致，是调试黄金工具。

4. 实操过程与核心环节实现：从零写出可运行的文本爬虫

4.1 定义Item结构：用数据契约约束爬虫输出

打开text_scraper/items.py，删掉默认注释，写入：

import scrapy class TextItem(scrapy.Item): url = scrapy.Field() title = scrapy.Field() content = scrapy.Field() publish_date = scrapy.Field()

这四行代码看似简单，却是整个爬虫的“宪法”。scrapy.Field()不是普通字符串变量，它是一个描述符（descriptor），背后封装了数据验证、序列化、默认值等逻辑。比如，你后续在pipeline里可以写if not item['title']: item['title'] = 'Untitled'，Scrapy会自动触发Field的__set__方法。更重要的是，它让IDE能提供代码提示——当你在spider里写item['tit']时，PyCharm会自动补全为title。
为什么必须定义Item？因为Scrapy的Pipeline、Exporter、Feed Exporters都依赖Item的字段名做映射。如果你直接用dict，导出JSON时字段顺序乱、缺少类型提示、无法做字段级验证。我曾接手一个用dict的遗留爬虫，老板临时要求把publish_date转成ISO格式，结果grep了200行代码才发现有7处地方手动拼接日期字符串，改漏一处就导致数据错乱。而用Item，只需在pipeline里统一处理一次。

4.2 编写Spider：解析逻辑的三段式结构

在spiders/basic_spider.py中，按以下结构编写：

import scrapy from text_scraper.items import TextItem class BasicSpider(scrapy.Spider): name = 'basic' allowed_domains = ['example.com'] # 必须填写，防止爬虫跑偏 start_urls = ['https://example.com/article/1'] # 初始URL列表 def parse(self, response): # 步骤1：实例化Item对象 item = TextItem() # 步骤2：用CSS选择器提取文本（推荐新手优先用CSS） item['url'] = response.url item['title'] = response.css('h1::text').get(default='').strip() item['content'] = ' '.join( response.css('.article-content p::text').getall() ).strip() item['publish_date'] = response.css('time::attr(datetime)').get(default='') # 步骤3：yield Item，交给Pipeline处理 yield item # 步骤4（可选）：提取下一页链接，实现翻页 next_page = response.css('a.next-page::attr(href)').get() if next_page: yield response.follow(next_page, self.parse)

关键点解析：

allowed_domains是安全阀。Scrapy会自动过滤掉不在该列表里的域名请求，防止爬虫意外爬到google.com。即使start_urls里写了http://google.com，也会被拦截。
response.follow()是Scrapy的智能链接解析器。它自动处理相对URL（如）、协议相对URL（//cdn.example.com/img.jpg）、甚至JavaScript跳转（location.href='xxx'），比手动拼接response.url + next_url可靠得多。
get(default='')和getall()是核心方法。get()取第一个匹配项，getall()取全部，default参数避免None导致的AttributeError。永远不要写response.css('h1::text').get() or ''，因为get()本身就能返回空字符串。
strip()必须显式调用。Scrapy不会自动去除首尾空白，HTML里常见的、换行符、缩进都会原样保留，导致JSON里出现大量"\n \t"。

4.3 配置Settings：5个必改参数让爬虫稳如老狗

打开text_scraper/settings.py，修改以下参数（其他保持默认）：

# 1. 设置User-Agent，伪装成主流浏览器 USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36' # 2. 下载延迟，避免高频请求被封（单位：秒） DOWNLOAD_DELAY = 1.5 # 3. 并发请求数，与DOWNLOAD_DELAY配合控制总QPS CONCURRENT_REQUESTS = 8 # 4. 启用自动限速，根据响应时间动态调整请求间隔 AUTOTHROTTLE_ENABLED = True AUTOTHROTTLE_START_DELAY = 1 AUTOTHROTTLE_MAX_DELAY = 3 # 5. 关闭COOKIES，减少状态干扰（除非目标站需要登录） COOKIES_ENABLED = False

参数逻辑详解：

DOWNLOAD_DELAY=1.5+CONCURRENT_REQUESTS=8≈ 每秒5.3个请求（8/1.5），这是大多数中小型网站能承受的友好速率。如果你爬的是政府公开数据站，可以降到0.5秒；如果是新闻聚合站，建议升到2秒。
AUTOTHROTTLE是Scrapy的智能节流器。它会监控每个请求的响应时间，如果发现服务器变慢（比如平均响应超2秒），自动延长DELAY到AUTOTHROTTLE_MAX_DELAY，避免被当攻击。开启它比手动调DELAY更稳妥。
COOKIES_ENABLED=False是新手保护。Cookie机制会让请求带上Session ID，如果某个请求失败（如403），后续请求可能因Session失效全挂。先关掉，等爬虫稳定后再开。

注意：settings.py里所有参数名必须大写，小写无效。这是Scrapy的硬性约定，不是bug。

4.4 实现Pipeline：三行代码搞定文本落地

打开text_scraper/pipelines.py，写入：

import json import os class JsonWriterPipeline: def open_spider(self, spider): # 爬虫启动时创建文件，'a'模式支持追加 self.file = open('scraped_texts.jsonl', 'a', encoding='utf-8') def close_spider(self, spider): # 爬虫结束时关闭文件 self.file.close() def process_item(self, item, spider): # 将Item转为字典，序列化为JSON行，写入文件 line = json.dumps(dict(item), ensure_ascii=False) + '\n' self.file.write(line) return item # 必须返回item，否则Pipeline链中断

然后在settings.py里启用它：

ITEM_PIPELINES = { 'text_scraper.pipelines.JsonWriterPipeline': 300, }

为什么用JSONL（JSON Lines）而非JSON？因为JSON要求整个文件是一个合法JSON对象（如{"data":[{},{},{}]}），而爬虫是流式产出Item的，你无法预知总条数。JSONL每行一个独立JSON对象，支持边爬边写、断点续爬、用head/tail命令快速查看样本。用less scraped_texts.jsonl就能看到前10条数据，比打开几百MB的JSON文件快得多。

实操心得：第一次运行前，手动删除scraped_texts.jsonl文件。Scrapy不会自动清空旧文件，重复运行会导致数据堆积。我习惯在spider开头加一句os.remove('scraped_texts.jsonl') if os.path.exists('scraped_texts.jsonl') else None，但更推荐用shell脚本封装：rm scraped_texts.jsonl && scrapy crawl basic。

4.5 运行与验证：如何读懂Scrapy的日志信息

执行scrapy crawl basic启动爬虫。正常日志如下：

2023-11-20 10:23:45 [scrapy.core.engine] INFO: Spider opened 2023-11-20 10:23:45 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying <GET https://example.com/article/1> (failed 1 times): 503 Service Unavailable 2023-11-20 10:23:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://example.com/article/1> {'url': 'https://example.com/article/1', 'title': 'Scrapy入门指南', 'content': '本文教你...', 'publish_date': '2023-11-20'} 2023-11-20 10:23:47 [scrapy.core.engine] INFO: Closing spider (finished)

关键日志解读：

Spider opened：爬虫已加载，开始调度。
Retrying ... 503：Scrapy自动重试了失败请求（默认重试2次），这是健康信号，说明重试机制生效。
Scraped from <200 ...>：成功提取一条Item，括号里是原始响应状态码和URL。
Closing spider (finished)：爬虫自然结束（没有更多request yield）。
如果看到Closing spider (cancelled)，说明被Ctrl+C中断；如果看到Closing spider (shutdown)，说明内存溢出被强制终止。
验证结果：用head -n 3 scraped_texts.jsonl查看前三条：

{"url": "https://example.com/article/1", "title": "Scrapy入门指南", "content": "本文教你...", "publish_date": "2023-11-20"} {"url": "https://example.com/article/2", "title": "XPath实战技巧", "content": "选择器不是猜谜...", "publish_date": "2023-11-19"}

格式正确，字段齐全，编码无乱码——你的基础爬虫已交付。

5. 常见问题与排查技巧实录：那些让我凌晨三点还在改正则的夜晚

5.1 问题速查表：高频报错与一招解决法

报错现象	根本原因	解决方案	我踩过的坑
`ModuleNotFoundError: No module named 'scrapy'`	环境未激活或安装失败	`conda activate scrapy-env`→`conda list \| grep scrapy`→ 重装	曾在zsh里用bash命令激活，环境没切过去，浪费40分钟
`twisted.internet.error.ReactorNotRestartable`	多次运行scrapy shell未退出	关闭所有shell窗口，重启终端	Scrapy Shell的reactor只能启动一次，强行重启会崩溃
`XPathEvalError: Invalid expression`	XPath语法错误（如未闭合引号）	在shell里用response.xpath('xxx').get()逐段测试	把双引号写成中文引号“”，Python报错却不提示具体位置
`KeyError: 'title'`	Item字段名和spider里赋值名不一致	统一用items.py里定义的字段名，IDE开启代码检查	字段名写成titile（多一个i），debug半小时才发现拼写错误
`UnicodeEncodeError: 'charmap' codec can't encode character`	Windows默认编码非UTF-8	在pipelines.py的open()里加`encoding='utf-8'`	Python在Windows上open()默认用gbk，中文路径直接报错

5.2 调试黄金组合：Shell + Logging + 断点

Scrapy调试不能只靠print()，必须用三件套：
第一，Scrapy Shell是首选。它比写代码-运行-看日志快10倍。进入shell后，用fetch('https://example.com')模拟请求，再用response.css()或response.xpath()实时测试选择器。支持Tab补全、历史命令、变量持久化（response对象一直存在）。
第二，自定义Logging。在spider的parse方法开头加：

self.logger.info(f"Processing {response.url}") self.logger.debug(f"Response status: {response.status}") self.logger.debug(f"Title selector result: {response.css('h1::text').get()}")

然后在settings.py里设置LOG_LEVEL = 'DEBUG'。INFO级日志显示关键流程，DEBUG级显示中间变量，比print更规范，且可随时开关。
第三，VS Code断点调试。在launch.json里配置：

{ "configurations": [ { "name": "Scrapy Crawl", "type": "python", "request": "launch", "module": "scrapy", "args": ["crawl", "basic"], "console": "integratedTerminal" } ] }

然后在parse方法里打断点，F5启动，变量、调用栈、响应体全可视。这是我修复JS渲染页面的必备技能——在断点里直接看response.text是否含目标文本。

5.3 反爬应对实战：从403到200的三次迭代

第一次跑，遇到403 Forbidden：

诊断：curl -I https://example.com 返回403，但浏览器访问正常。
原因：目标站检查User-Agent，拒绝非浏览器请求。
解决：在settings.py里设置USER_AGENT为Chrome最新UA，问题消失。

第二次跑，遇到429 Too Many Requests：

诊断：日志里大量429，且AUTOTHROTTLE没生效。
原因：AUTOTHROTTLE默认只对200响应生效，429被当错误跳过。
解决：在settings.py加AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0，并手动加DOWNLOAD_DELAY = 3，强制降速。

第三次跑，内容为空：

诊断：response.css('.content').get()返回None，但浏览器里元素存在。
原因：网站用JavaScript动态插入.content，Scrapy拿到的HTML里只有占位div。
解决：改用Splash渲染。安装scrapy-splash，配置SPLASH_URL，在spider里用yield SplashRequest(url, self.parse, args={'html': 1, 'png': 0})。
这三次迭代不是虚构，是我在爬某技术博客时的真实记录。反爬不是玄学，是HTTP状态码、响应头、HTML结构、JS行为的综合分析。每一次403/429/503，都是网站在告诉你“我需要什么”，而Scrapy的日志就是解码器。

5.4 性能优化备忘录：让爬虫快而不躁

并发数不是越高越好：CONCURRENT_REQUESTS=32在1G带宽下反而比8慢，因为TCP连接争抢严重。实测MacBook Pro上最优值是CPU核心数×2（M1是8核，设16）。
禁用图片下载：在settings.py加MEDIA_ALLOW_REDIRECTS = False和IMAGES_STORE = ''，避免Scrapy自动下载img标签src，节省80%带宽。
选择器性能排序：CSS > XPath > 正则。CSS选择器由lxml底层C实现，比XPath快3倍；正则在HTML上匹配极易出错（如跨标签匹配）。
批量提取用getall()：response.css('p::text').getall()比循环for p in response.css('p'): p.css('::text').get()快5倍，因为前者是C层批量提取。
关闭Telnet和Logging：生产环境在settings.py加TELNETCONSOLE_ENABLED = False和LOG_ENABLED = False，减少I/O开销。

6. 扩展可能性与个人经验：这个“基础”爬虫还能走多远

这个基础爬虫不是终点，而是你数据采集能力的起始刻度。我把它用在三个超出预期的场景里：
第一，竞品文案审计。给市场部同事写了个小脚本，每天凌晨2点自动爬取5家竞品官网的“产品优势”板块，用difflib计算文本相似度，生成周报。当发现某竞品悄悄把“行业领先”改成“国内首创”时，我们立刻调整了话术策略。
第二，学术文献摘要收集。爬取arXiv的CS.CL分类，用BERT模型对摘要聚类，找出当前NLP研究热点。Scrapy的异步特性让我们3小时爬完2000篇论文，比requests快6倍。
第三，内部知识库重建。公司Wiki迁移到新平台前，用Scrapy导出所有Markdown页面，清洗掉废弃链接和过期截图，再批量导入。整个过程无人工干预，准确率99.2%。
最后分享一个小技巧：永远在spider里加custom_settings = {'DOWNLOAD_DELAY': 2}。这样每个爬虫可以有自己的节奏，而不影响全局settings。比如爬新闻站用1秒，爬政府站用5秒，互不干扰。
这个“Building a Basic Web Text Scraper with Scrapy”的标题，表面是教工具，实质是传递一种工程思维：用最小结构验证核心假设，用可配置项应对变化，用日志和调试工具驯服不确定性。当你能稳稳跑通这100行代码，你就已经站在了数据采集工程师的起跑线上——剩下的，只是把跑道越铺越长而已。

查看全文

http://www.cnnetsun.cn/news/2900503.html