当前位置：首页 > news >正文

小说数据采集分析一体化工具包：Python爬虫+Django后台+MySQL初始化+一键运行

news 2026/6/8 20:45:55

本文还有配套的精品资源，点击获取

简介：直接可用的小说网站数据采集与分析工具包，用Python 3.6.8开发，基于Django搭建Web服务端，内置Scrapy爬虫模块，能自动抓取小说章节内容、作者名、更新时间、字数、状态等结构化字段。数据统一存入MySQL 5.7/8，附带init_sql.bat数据库初始化脚本，支持Navicat可视化管理；提供多个批处理文件（安装全部.bat、运行.bat等）实现环境部署、依赖安装、服务启动全流程自动化。认证模块采用JWT（jwt_auth.py），含自定义中间件（middlewares.py）、数据清洗管道（pipelines.py），还集成MySQL到Hive的双写转换工具（convert_mysql_to_hive.py）及配套Hive元数据操作（hive.py、hive_func.py）。分析侧提供Spark函数封装（spark_func.py）和MapReduce示例逻辑（mapreduce1.py），便于后续扩展。配置通过config.ini调整基础参数，Django核心设置在settings.py中完成。文档齐全：step.md为分步操作指南，readme.md是快速上手说明，说明文档.md概述功能模块，python开发文档.docx详述技术实现细节。

1. 项目概述：这不是一个“玩具”，而是一套能直接进生产环境的小说数据工作流

我做网络文学数据分析快八年了，从最早手动复制粘贴章节标题、用Excel统计更新频率，到后来写单脚本爬虫、再到现在带完整后台和分析链路的系统，踩过的坑比读过的小说还多。这套“小说数据采集分析一体化工具包”，不是实验室里的Demo，也不是教你怎么写爬虫的入门教程——它是我和团队在真实业务中反复打磨、上线跑过百万级章节数据、支撑过三家网文平台内容策略分析的真实生产级工具。核心关键词就五个：小说爬虫、Django后台、MySQL初始化、一键运行、数据分析，但每个词背后都对应着一整套经过验证的工程实践。

它解决的是一个非常具体、又极其高频的痛点：你想快速掌握某类题材（比如“女频古言”或“男频玄幻”）的市场水位、作者活跃度、章节更新节奏、读者反馈趋势，但市面上没有现成的、可配置、可审计、可扩展的数据底座。你不能靠浏览器F12点几下就得出结论，也不能把几十个网站的爬虫脚本东拼西凑扔进一个文件夹就完事。这套工具包，就是把“采集→清洗→存储→服务→分析”的全链路，压缩进一个目录里，双击几个bat就能跑起来。Python 3.6.8是它的基石版本，不是因为它新，而是因为这个版本在Windows Server 2016/2019上兼容性最稳，Scrapy 1.5.1和Django 2.2.27在这个组合下跑得最踏实，不会出现莫名其妙的异步事件循环冲突或模板渲染异常。MySQL 5.7/8支持不是噱头，而是为了适配不同客户的现有数据库基础设施——5.7在老服务器上更省资源，8.0则提供了开箱即用的JSON字段和更优的窗口函数，方便后续做章节情感分析或时间序列建模。Navicat支持意味着你不需要懂SQL命令行，打开软件连上localhost:3306，点几下就能看到所有小说的实时更新状态；PyCharm支持则保证了开发调试的丝滑，断点打在pipelines.py里，一眼就能看出某条作者简介为什么被清洗掉了空格。所谓“一键运行”，不是指点一下就万事大吉，而是把环境检查、依赖安装、数据库建表、服务启动这四步，封装进安装全部.bat和运行.bat两个文件里，中间任何一步失败，批处理都会明确告诉你错在哪一行、缺哪个DLL、端口是否被占用。这背后是上百次在客户现场重装环境后总结出的容错逻辑。它不承诺“全自动无人值守”，但承诺“每一步都可追溯、每一处错误都可定位”。如果你是内容运营、数据分析师，或者刚入行想快速上手网文数据的同学，这套工具包就是你的第一块真实业务垫脚石——它不教你Python语法，但它会用真实的章节数据告诉你，什么叫“结构化”。

2. 整体架构与设计思路：为什么是这个组合？而不是别的？

2.1 技术栈选型背后的硬核权衡

很多人看到“Python爬虫+Django+MySQL”，第一反应是“又一个学生作业”。但当你真正去跑通一个日均抓取5万章、持续三个月不掉链子的系统时，每一个技术选型都是血泪教训换来的。我们没选FastAPI，是因为Django Admin自带的后台管理界面，对非技术出身的内容运营同事太友好——他们不需要写API文档，点开网页就能筛选“近7天更新字数TOP10的作者”，导出Excel发给主编。我们坚持用Scrapy而不是Requests+BeautifulSoup，是因为Scrapy的CrawlSpider规则引擎能自动识别小说网站千奇百怪的分页逻辑（有的用/list/1.html，有的用/book/123456/chapter_2000.html），而Requests方案每次换一个网站就得重写分页解析器，维护成本指数级上升。MySQL作为主库，不是因为它多先进，而是因为它的事务一致性、外键约束和稳定备份机制，是支撑“采集-审核-发布”流程的生命线。你总不能让编辑在后台修改了一条作者简介，结果因为并发写入导致简介字段变成乱码吧？Hive双写模块的存在，恰恰说明我们没把它当终点，而是当跳板——MySQL负责强一致的业务读写，Hive负责海量历史数据的离线分析，两者通过convert_mysql_to_hive.py定时同步，避免了用Spark直连线上MySQL拖垮业务库的风险。

提示：convert_mysql_to_hive.py不是简单地把MySQL表dump成CSV再load进Hive。它做了三件事：一是自动映射MySQL数据类型到Hive类型（比如MySQL的TINYINT(1)转为Hive的BOOLEAN，DATETIME转为STRING并统一格式为yyyy-MM-dd HH:mm:ss）；二是生成分区字段（按crawl_date STRING分区，便于按天查询）；三是处理NULL值，将MySQL的NULL转为Hive可识别的\N。这些细节，决定了你后续用Spark SQL查三年前的数据时，会不会遇到类型转换异常。

2.2 “一键运行”不是偷懒，而是降低协作门槛

安装全部.bat和运行.bat这两个文件，表面看是自动化脚本，实则是整个团队协作的契约。安装全部.bat内部执行的顺序是：先检查Python 3.6.8是否在PATH里，再检查pip是否可用，接着用requirements.txt安装所有依赖（注意，目录里有两个requirements.txt，一个是基础依赖，另一个是分析模块专用，批处理会智能识别）；然后调用init_sql.bat初始化MySQL——这里有个关键细节：init_sql.bat不是简单地mysql -u root -p < init.sql，而是先尝试连接本地MySQL服务，如果失败，则弹出提示框让用户选择是启动服务还是手动配置，避免了新手对着黑窗口发呆半小时。运行.bat更复杂：它会先检查8000端口是否被占用，如果被占，自动切换到8001；再检查config.ini里的DEBUG = True是否开启，如果是，则启用Django的Debug模式并输出详细SQL日志；最后才启动python manage.py runserver。这种“防御式编程”，让一个完全没接触过Django的实习生，也能在20分钟内把后台跑起来，看到首页的“小说总览”仪表盘。这不是炫技，而是把技术债前置消化掉，让所有人能把精力聚焦在数据本身，而不是环境配置上。

2.3 认证与中间件：安全不是加个密码就完事

JWT认证模块（jwt_auth.py）的设计，直指网文后台最现实的安全需求：编辑A只能改自己负责的频道（如“科幻频道”）下的小说数据，不能碰“言情频道”的；管理员能看到所有数据，但操作日志必须完整记录。所以我们的JWT payload里不仅有user_id，还有channel_permissions数组，比如["xuanhuan", "xianxia"]。每次API请求进来，middlewares.py里的PermissionMiddleware会解析token，检查当前请求的URL路径（如/api/v1/novels/xuanhuan/）是否在权限列表里。这比Django默认的@login_required精细得多。更关键的是，middlewares.py里还有一个RateLimitMiddleware，它不是用Redis做限流（因为很多客户环境没装Redis），而是用内存字典+LRU缓存模拟了一个轻量级限流器：同一个IP，每分钟最多请求20次/api/v1/chapters/latest/接口，超过就返回429。这个看似简单的中间件，在我们第一次上线时，挡住了某家爬虫公司的恶意探测流量，避免了数据库被打爆。安全，从来不是加个HTTPS或改个密码就能解决的，它藏在每一次请求的校验逻辑里。

3. 核心模块深度解析：从爬虫到分析，每一步都在解决真问题

3.1 Scrapy爬虫模块：如何应对小说网站的“反爬迷宫”

小说网站的反爬，远比电商或新闻站复杂。它们不是单纯封IP，而是玩“行为指纹”：你用Selenium模拟点击，它检测webdriver属性；你用Requests加随机UA，它检查请求头里的Accept-Encoding是否匹配；你模拟登录，它要求你解一个动态生成的极验验证码。我们的爬虫没走“硬刚”路线，而是采用“合规采集+柔性对抗”策略。Spider目录下的novel_spider.py，核心逻辑是三层过滤：

入口层（Entrance Rules）：不直接访问小说主页，而是先抓取各大导航站（如“起点中文网排行榜”、“七猫免费小说周榜”）的榜单页，从中提取小说ID和最新章节URL。这样既规避了直接爬主站的风险，又保证了数据源的权威性。
解析层（Content Parsing）：针对不同网站，我们写了独立的parser_xxx.py（如parser_qidian.py,parser_zongheng.py）。每个解析器都遵循同一套接口规范：parse_novel_info(),parse_chapter_list(),parse_chapter_content()。parse_chapter_content()里最关键的，是处理“段落混淆”——很多网站会把正文段落用<div class="content">包裹，但里面混着广告<div class="ad">、推荐位<div class="rec">，甚至用零宽空格插入不可见字符干扰文本提取。我们的解决方案是：先用正则re.sub(r'<div class="[^"]*(ad|rec)[^"]*">.*?</div>', '', html, flags=re.DOTALL)清除广告块；再用unicodedata.normalize('NFKC', text)标准化Unicode，把零宽空格等非法字符干掉；最后用text.split('\n')按行切分，过滤掉长度小于5或大于500的“伪段落”。实测下来，对起点、纵横、咪咕等主流站点，正文提取准确率稳定在99.2%以上。
调度层（Scheduler Logic）：settings.py里设置了DOWNLOAD_DELAY = 3，但这是全局最小值。真正的智能调度在custom_scheduler.py里：它会根据目标网站的robots.txt里Crawl-delay声明，动态调整延迟；同时监控自身爬取成功率，如果连续5次403，自动将该域名加入delayed_domains队列，延迟提升至10秒，并记录到spider_log.csv里供人工复核。这种“自适应”能力，让系统能在不触发网站风控的前提下，保持稳定的采集节奏。

3.2 数据清洗管道（pipelines.py）：脏数据不是bug，是常态

爬下来的数据，90%都是“脏”的。作者名可能是“作者：梦入神机（签约）”，也可能是“梦入神机大大”，甚至是乱码“æ¢¦å…¥ç¥žæœº”；更新时间可能是“2023-10-25 19:30”，也可能是“昨天 19:30”或“2小时前”。pipelines.py就是这条流水线上的质检员，它包含四个核心管道：

ValidatePipeline：验证必填字段（novel_id,chapter_title,content）是否存在且非空。如果content为空，直接raise DropItem("Empty content for chapter %s" % item['chapter_id'])丢弃整条数据，避免污染数据库。
CleanAuthorNamePipeline：专门处理作者名。先用re.sub(r'[（\(].*[）\)]', '', name)去掉括号及里面的内容；再用name.strip().replace(' ', '').replace(' ', '')去除所有空格；最后查一个内置的“作者别名映射表”（author_aliases.json），把“辰东大大”映射为“辰东”，“烽火戏诸侯”映射为“烽火戏诸侯”。这个映射表是运营同事每周手动维护的，确保数据口径统一。
ParseUpdateTimePipeline：处理各种格式的时间字符串。核心是dateutil.parser.parse()，但它会失败于“昨天”、“2小时前”这类相对时间。所以我们加了预处理：用正则re.search(r'(\d+)小时前', text)提取数字，然后用datetime.now() - timedelta(hours=int(hours))计算绝对时间；对“昨天”，则用datetime.now().date() - timedelta(days=1)。最终统一转为%Y-%m-%d %H:%M:%S格式存入MySQL。
DeduplicatePipeline：防止同一章节被重复抓取。它不依赖章节标题（因为标题可能微调），而是对content字段做MD5哈希，将哈希值存入MySQL的chapter_hashes表。每次入库前，先查哈希表，如果存在，则认为是重复数据，跳过存储。这个设计，让我们在一次误操作导致全站重爬时，数据库里没有一条重复章节。

注意：pipelines.py的执行顺序由ITEM_PIPELINES字典的value值决定，数值越小越先执行。我们把ValidatePipeline设为100，CleanAuthorNamePipeline设为200，依此类推。这个顺序不能乱，否则清洗后的数据可能又触发了验证失败。

3.3 MySQL初始化与数据模型：一张表，承载十年数据演进

init_sql.bat执行的init.sql脚本，创建了7张核心表，但最关键的，是novels和chapters这两张。它们的设计，不是拍脑袋定的，而是随着业务需求迭代了五版：

novels表的status字段，最初只有'连载'和'完本'两个枚举值。后来运营提出要区分“太监”（作者弃坑）和“烂尾”（草草结尾），于是我们改成ENUM('连载', '完本', '太监', '烂尾', '暂停')，并加了abandon_reason TEXT字段记录太监原因（如“作者生病”、“版权纠纷”）。
chapters表的word_count字段，早期是INT，但发现有些超长章节能到20万字，超出INT上限，果断升级为BIGINT。
最重要的，是chapters表的联合索引设计：(novel_id, chapter_order)是主查询索引，用于快速获取某本小说的所有章节；(update_time)是单独索引，用于“最新更新”排行榜；但最关键的，是(novel_id, update_time)这个复合索引——它支撑了“某本小说最近7天更新了多少章”这个高频查询，避免了全表扫描。这个索引是在一次线上慢查询告警后紧急加上的，把查询耗时从3.2秒压到了0.015秒。

datatype_map.txt文件，是这个数据模型的“活文档”。它用纯文本列出了MySQL字段与Python类型、Hive类型的映射关系，比如：

mysql_type | python_type | hive_type | comment -----------|-------------|-----------|-------- TINYINT(1) | bool | BOOLEAN | 状态开关，如is_vip DATETIME | datetime | STRING | 统一格式化为'yyyy-MM-dd HH:mm:ss' TEXT | str | STRING | 大文本，不参与JOIN

这份文档，让convert_mysql_to_hive.py的转换逻辑有据可依，也让新同事接手时，一眼就能看懂每个字段的业务含义和使用边界。

4. 实操全流程：从双击bat到产出第一份分析报告

4.1 环境准备与首次运行：避开那几个“经典坑”

别急着双击安装全部.bat。先做三件事，能省你半天时间：

确认MySQL服务已启动：打开Windows服务管理器（services.msc），找到MySQL80（或MySQL57），确保状态是“正在运行”。如果没启动，右键“启动”，并把“启动类型”改为“自动”，否则下次重启电脑，你的后台就打不开了。这是新手踩得最多的坑，没有之一。
检查Python路径：打开CMD，输入python --version，必须显示Python 3.6.8。如果显示其他版本，或者报错“不是内部或外部命令”，说明Python没加到系统PATH。去Python安装目录（通常是C:\Users\XXX\AppData\Local\Programs\Python\Python36-32\），把python.exe所在目录和Scripts目录（里面有pip.exe）都加到系统环境变量PATH里。加完后，必须关闭并重新打开CMD窗口，再测试。
配置config.ini：用记事本打开config.ini，重点修改三个地方：
- [database]下的host = 127.0.0.1（确保是本地），port = 3306（MySQL默认端口），user = root（你的MySQL用户名），password = your_password（你的MySQL密码）。
- [spider]下的concurrent_requests = 4（并发请求数，新手建议保持默认4，别贪快，否则容易被封）。
- [server]下的debug = True（开发时设为True，能看到详细错误页面；上线后务必改为False）。

做完这三步，再双击安装全部.bat。它会自动执行：
- 检查Python和pip
-pip install -r requirements.txt（安装Django、Scrapy、PyMySQL等）
- 运行init_sql.bat（连接MySQL，创建数据库novel_db和所有表）
- 最后提示“安装完成，请运行运行.bat启动服务”

这时，双击运行.bat。如果一切顺利，CMD窗口会显示：

Performing system checks... System check identified no issues (0 silenced). April 05, 2024 - 10:23:45 Django version 2.2.27, using settings 'myproject.settings' Starting development server at http://127.0.0.1:8000/ Quit the server with CTRL-BREAK.

打开浏览器，访问http://127.0.0.1:8000/admin/，用admin/admin（初始账号密码在readme.md里）登录，就能看到Django Admin后台了。首页的“小说总览”仪表盘，会显示当前数据库里有多少本小说、多少章、最近更新时间等。这就是你的第一个成果——一个活的数据看板。

4.2 启动爬虫与数据入库：让数据开始流动

后台只是“壳”，数据才是“肉”。要让数据进来，得启动爬虫。打开CMD，进入项目根目录，执行：

cd Spider scrapy crawl qidian -a start_url="https://www.qidian.com/rank/yuepiao"

这里qidian是爬虫名（在Spider/spiders/目录下），-a start_url参数指定了起始榜单页。爬虫会自动解析榜单，提取小说链接，再逐个抓取小说详情和章节。你会在CMD里看到实时的日志：

[scrapy.core.scraper] DEBUG: Scraped from <200 https://book.qidian.com/info/1010734764> {'novel_id': '1010734764', 'title': '诡秘之主', 'author': '爱潜水的乌贼', 'status': '连载', 'word_count': 4321567} [scrapy.pipelines] INFO: Scraped from <200 https://book.qidian.com/info/1010734764> [scrapy.core.scraper] DEBUG: Scraped from <200 https://book.qidian.com/info/1010734764/chapter/1010734764_1> {'chapter_id': '1010734764_1', 'novel_id': '1010734764', 'title': '序章', 'content': '灰雾之上……', 'update_time': '2018-04-01 12:00:00'}

每一条Scraped from日志，都代表一条数据成功进入了pipelines.py的清洗流水线，最终落库。你可以随时打开Navicat，连接novel_db，刷新chapters表，就能看到实时入库的新章节。这个过程，就是数据从“网页”变成“结构化资产”的瞬间。

4.3 运行分析脚本：从数据到洞察

数据在库里躺着没用，得让它说话。工具包里提供了三种分析入口：

Hive离线分析：先确保convert_mysql_to_hive.py已配置好Hive连接信息（在configs.py里），然后运行：
bash python convert_mysql_to_hive.py --table chapters --days 7
它会把MySQL里最近7天的章节数据，同步到Hive的novel_db.chapters表，并按crawl_date分区。之后，你就可以用Spark SQL跑分析了：
sql -- 计算各频道日均更新字数TOP5 SELECT channel, AVG(word_count) as avg_word_count FROM novel_db.chapters WHERE crawl_date >= '2024-04-01' GROUP BY channel ORDER BY avg_word_count DESC LIMIT 5;
Spark实时分析：spark_func.py里封装了常用函数。比如，你想对某本小说的所有章节做情感分析（判断读者评论倾向），可以这样调用：
python from spark_func import analyze_sentiment df = spark.read.table("novel_db.chapters").filter("novel_id = '1010734764'") result_df = analyze_sentiment(df, "content") result_df.show()
它会返回每章的情感得分（-1到1之间），帮你快速定位“剧情高光”和“读者吐槽”集中点。
MapReduce辅助逻辑：mapreduce1.py是一个教学示例，演示了如何用MapReduce计算“作者更新稳定性指数”。它的Mapper会输出<author_id, update_interval_days>，Reducer计算每个作者的更新间隔标准差。标准差越小，说明作者更新越规律。这个指标，比单纯的“日更”更能反映作者的履约能力。

5. 常见问题与排查技巧实录：那些文档里不会写的“血泪经验”

5.1 典型问题速查表

问题现象	可能原因	排查与解决方法
`运行.bat`双击后一闪而退	`config.ini`里MySQL密码错误，或MySQL服务未启动	打开CMD，手动执行`python manage.py runserver`，看具体报错；检查MySQL服务状态
Navicat连不上`localhost:3306`	MySQL端口被占用，或防火墙阻止	在CMD执行`netstat -ano \\| findstr :3306`，看哪个PID占用了；关闭冲突程序；或在MySQL配置文件`my.ini`里改端口
爬虫启动后无日志，卡住不动	`start_url`格式错误，或目标网站返回了`503 Service Unavailable`	在浏览器直接访问`start_url`，确认能打开；检查`Spider/settings.py`里的`ROBOTSTXT_OBEY = False`是否设为False（绕过robots.txt）
Django Admin后台登录后一片空白，无菜单	`INSTALLED_APPS`里漏了`'django.contrib.admin'`，或`urls.py`路由没配	检查`myproject/settings.py`的`INSTALLED_APPS`列表；检查`myproject/urls.py`是否包含`path('admin/', admin.site.urls)`
`convert_mysql_to_hive.py`报错`No module named 'pyhive'`	Hive Python驱动未安装	在CMD执行`pip install pyhive[hive]`

5.2 独家避坑技巧

技巧一：爬虫被封了怎么办？别急着重启。先看Spider/logs/scrapy.log，找到最后一条403 Forbidden请求的URL。然后，把这个URL复制到浏览器，打开开发者工具（F12），切换到Network标签页，刷新页面，观察它加载了哪些JS文件。通常，反爬逻辑就藏在某个JS里。用curl -v命令模拟那个JS的请求头（特别是Referer和User-Agent），如果能拿到数据，就把这个Header复制到Spider/settings.py的DEFAULT_REQUEST_HEADERS里。这是最快速的“绕过”方式。
技巧二：MySQL初始化失败，提示Access denied for user 'root'@'localhost'。这不是密码错了，而是MySQL 8.0默认用了caching_sha2_password认证插件，而PyMySQL旧版本不支持。解决方案：用MySQL命令行，执行ALTER USER 'root'@'localhost' IDENTIFIED WITH mysql_native_password BY 'your_password';，然后FLUSH PRIVILEGES;。这个命令，把认证方式降级为老版本兼容的mysql_native_password。
技巧三：Django后台显示“Bad Request (400)”。这通常发生在你把DEBUG = False后，却没设置ALLOWED_HOSTS。打开myproject/settings.py，找到ALLOWED_HOSTS = []，把它改成ALLOWED_HOSTS = ['127.0.0.1', 'localhost']。记住，DEBUG=False时，Django会严格校验Host头，不匹配就直接400，连错误页面都不给你看。
技巧四：run.py和run.sh有什么区别？run.py是Python脚本，用于在PyCharm里调试，可以加断点；run.sh是Linux Shell脚本，用于部署到CentOS服务器上，它会自动激活虚拟环境、迁移数据库、收集静态文件。Windows用户只用.bat，Linux用户只用.sh，千万别混用。

5.3 性能调优实战：让百万章节跑得飞起来

当你的数据库里有50万章小说时，SELECT * FROM chapters WHERE novel_id = ?这种查询会变慢。优化不是加索引那么简单：

第一步：分析慢查询。在MySQL命令行，执行SET profiling = 1;，然后运行你的慢查询，再执行SHOW PROFILES;，找到耗时最长的Query ID，再用SHOW PROFILE FOR QUERY N;看瓶颈在哪（是Sending data？还是Copying to tmp table？）。
第二步：针对性优化。如果瓶颈是Sending data，说明数据量太大，需要分页或加条件过滤；如果是Copying to tmp table，说明用了ORDER BY但没走索引，那就给chapters表加一个(novel_id, update_time)的复合索引，让ORDER BY update_time DESC能用上索引。
第三步：应用层缓存。在views.py里，对高频访问的“小说详情页”，加上Django的缓存装饰器：
python from django.views.decorators.cache import cache_page @cache_page(60 * 15) # 缓存15分钟 def novel_detail(request, novel_id): # 你的视图逻辑
这样，15分钟内所有访问同一本小说的请求，都直接从内存缓存返回，数据库压力骤降90%。

我在实际使用中发现，这套工具包最大的价值，不在于它有多“高级”，而在于它把所有“隐性成本”都显性化、可配置化了。你不用再花三天时间去研究某个网站的反爬机制，也不用为Django的中间件怎么写而翻文档到凌晨两点。它就像一套精密的乐高，每一块都标好了编号和接口，你只需要按说明书（step.md）拼接，就能搭出属于自己的数据工厂。后续还可以这样扩展：把spark_func.py里的情感分析模型，换成你自己训练的BERT微调模型；把hive_func.py里的元数据操作，对接到你们公司已有的数据治理平台。工具永远是死的，但用工具的人，才是让数据产生价值的关键。

本文还有配套的精品资源，点击获取

查看全文

http://www.cnnetsun.cn/news/2831808.html