当前位置: 首页 > news >正文

14|爬虫入门:requests 与 BeautifulSoup

很多人开始学 Python,其中一个非常直接的动力就是:

想把网页上的信息自动拿下来。

比如:

  • 抓取新闻标题
  • 采集商品信息
  • 批量下载图片链接
  • 统计网页中的某些字段

这就是爬虫最常见的应用场景。

但真正开始写时,初学者往往会卡在这些问题:

  • 请求网页应该怎么发?
  • HTML 看起来这么乱,怎么提取想要的内容?
  • 为什么有的网站拿不到?

这篇文章先不讲复杂反爬,也不讲 Selenium 和异步采集。

我们只先把最基础、最经典的一组搭配讲清楚:

  • requests
  • BeautifulSoup

一、什么是爬虫

简单来说,爬虫做的事情就是:

  1. 向网页发请求
  2. 拿到网页返回的数据
  3. 从中提取有用信息
  4. 保存下来

所以一个基础爬虫通常分成三步:

  • 请求
  • 解析
  • 存储

二、安装依赖

如果你还没有安装相关库,可以先执行:

pipinstallrequests beautifulsoup4

三、发送第一个网页请求

importrequests url="https://httpbin.org/get"response=requests.get(url)print(response.status_code)print(response.text)

这里要认识三个最基础的东西:

1.requests.get(url)

发送 GET 请求。

2.response.status_code

查看状态码。

常见状态码:

200 请求成功 404 页面不存在 500 服务器错误

3.response.text

获取响应的文本内容。


四、请求头为什么重要

有些网站会根据请求头判断你是不是“正常浏览器访问”。

所以很多时候我们会加一个User-Agent

importrequests url="https://httpbin.org/headers"headers={"User-Agent":"Mozilla/5.0"}response=requests.get(url,headers=headers)print(response.text)

这能让请求看起来更像浏览器发出的。


五、认识 HTML

网页返回内容大多是 HTML。

例如:

<html><body><h1>新闻标题</h1><p>这是一段正文</p></body>
http://www.cnnetsun.cn/news/2210000.html

相关文章:

  • Manim CE v.. 发布:动画构建更丝滑,随机性终于“可控”了!
  • ReactGo性能优化策略:7个关键技巧提升应用速度
  • 如何用深度学习实现情感分析:BERT与LSTM模型对比指南
  • FastScriptReload实战案例:从零构建支持热重载的Unity项目
  • LM文生图镜像详细步骤:从https://gpu-q28fnko994-7860.web.gpu.csdn.net/访问到下载原图
  • SAP ABAP实战:给FAGLL03H报表加自定义字段,我踩过的坑都在这了
  • 别再只用3σ了!用Python的hampel库给你的时序数据做个‘体检’(附完整代码与可视化)
  • 基于Qt C++的社区安防监控系统
  • SOONet开源部署全流程:从Git克隆、依赖安装到Gradio服务上线
  • 核心组件大换血:Backbone与Neck魔改篇:YOLO26魔改C3/C4模块:引入Bottleneck Transformer增强局部自注意力
  • 2026届学术党必备的AI辅助写作工具实测分析
  • 终极RDPWrap指南:免费解锁Windows远程桌面多用户并发连接
  • 如何用qmcdump解锁QQ音乐加密文件:从原理到实战的完整指南
  • 大语言模型知识同质性解析与工业级优化方案
  • 机电文盲,摸索只使用python,来操作Lilygo T-WATCH-S3 可编程手表
  • LLM幻觉现象解析与实时检测技术实践
  • 【紧急更新】Hugging Face v4.45+强制变更的3项微调配置规则(未迁移者48小时内将触发训练中断)
  • JDK版本兼容性断裂、SPI机制失效、SSL国密套件加载失败,Java国产化适配三大“静默崩溃”场景全解析,
  • Onlook:AI驱动的可视化代码生成工具架构解析与实践指南
  • 如何在手机端使用嘎嘎降AI:移动端操作免费提交全流程完整图文教程
  • 基于Next.js 14构建全栈AI应用:OpenAI API封装与流式对话实现
  • 【紧急修复版】Python低代码插件调试失败率下降92.7%的3步诊断法(附自研debug-trace插件源码)
  • 2025最权威的六大降重复率方案实测分析
  • 保姆级教程:PyTorch模型转ONNX,从CViT到YOLO的实战避坑指南(附完整代码)
  • ai赋能office:用快马平台打造智能ppt内容生成与美化助手
  • Rust编程中的API变迁:从drain_filter到extract_if
  • 包装设计创意哪家强,先别急着比报价
  • 新手福音:绕过pycharm激活难题,在快马平台开启你的python第一行代码
  • 效率倍增:利用快马平台调用Gemini一键生成前端开发常用工具函数集
  • 新手入门:在快马平台轻松学习Windows智能应用控制原理与安全解除