当前位置：首页 > news >正文

【爬虫框架-8】其他

news 2026/6/28 12:11:43

Funspider 分布式爬虫框架概览

一、核心特性

1.1 数据入库机制

ItemBuffer 批量入库设计

借鉴 Feapder 的 ItemBuffer 机制，实现高效的批量数据入库：

classItemBuffer:""" 数据缓冲管理器 功能： - 批量缓冲：数据达到阈值后批量写入，减少数据库IO - 多 Pipeline 支持：同时支持 MySQL、MongoDB、Elasticsearch 等 - 失败重试：入库失败自动重试，超过次数存入 Redis - 去重处理：支持内存去重和 Redis 去重 """def__init__(self,spider_name:str,batch_size:int=100,max_retry_times:int=3):self._items_queue=Queue(maxsize=10000)self._pipelines=[]self._dedup_cache=set()# 内存去重self.batch_size=batch_size self.max_retry_times=max_retry_times

核心流程：

数据收集：解析方法yield Item()后，Item 进入队列
批量缓冲：队列达到batch_size或超时触发刷新
去重过滤：基于fingerprint进行去重
Pipeline 链式处理：按优先级依次调用 Pipeline
失败重试：失败后重试，超过次数存入 Redis

代码示例：

# 在爬虫中使用defparse_detail(self,request,response):item=Item()item.table_name='products'item.title=response.xpath('//h1/text()').get()item.price=response.xpath('//span[@class="price"]/text()').get()yielditem# 自动进入 ItemBuffer

1.2 去重机制

继承 Feapder 的去重方案

支持多种去重策略，兼容 Feapder 的去重过滤器：

fromfunspider.dedupimportBloomFilter,ExpireFilter# 1. 布隆过滤器（内存高效）dedup=BloomFilter(redis_url='redis://localhost:6379/0',key='spider:dedup:products',bit_size=10000000# 1000万位)# 2. 带过期时间的去重（适合增量爬取）dedup=ExpireFilter(redis_url='redis://localhost:6379/0',key='spider:dedup:products',expire_time=86400# 24小时过期)

去重指纹生成：

classItem:@propertydeffingerprint(self)->str:"""生成数据指纹用于去重"""data={}forkey,valueinself.__dict__.items():ifnotkey.startswith('_'):data[key]=value fingerprint_str=json.dumps(data,sort_keys=True,ensure_ascii=False)returnhashlib.md5(fingerprint_str.encode()).hexdigest()

Request 去重：

# Funboost 自带的消息去重机制booster.publish(request.to_dict(),task_id=task_id,# Funboost 会根据 task_id 自动去重)

二、框架定位与局限性

2.1 与其他爬虫框架相比对比

缺少的功能：

AirSpider（轻量级爬虫）
- Feapder 的 AirSpider 支持单脚本运行，无需 Redis/MySQL
- Funspider 必须依赖 Redis 作为消息队列，不适合简单任务
Spider（单机爬虫）
- Feapder 的 Spider 类似 Scrapy，适合中小型项目
- Funspider 强依赖分布式架构，小项目过于复杂
内置下载器
- Feapder 内置多种下载器（requests、selenium、playwright）
- Funspider 需要用户自行实现下载逻辑
- 可以尝试将浏览器单独封装api ，每个tab 一个任务，节省资源。爬虫使用api 下载。