当前位置: 首页 > news >正文

Python 3.10.5使用lxml库的xpath用法

网上的都太旧了,所以把这个能用的给发出来了

""" 1.导入lxml 2.将获取到的网页内容转换为xml 3.通过Xpath来定位和解析页面中的内容 """ from lxml import html import re # 读取 HTML 文件 with open("douban.html", "r", encoding="utf-8") as f: page = f.read() # 解析 HTML tree = html.fromstring(page) # 先构建解析树(Element对象) titles=tree.xpath("//*[@class='title'][1]/text()") # 解析树调用xpath,正确! print(titles) rating_num=tree.xpath("//*[@class='rating_num'][1]/text()") print(rating_num) year=tree.xpath('//*[@id="content"]/div/div[1]/ol/li[3]/div/div[2]/div[2]/p[1]/text()') for item in year: # print(item.strip().search("")) numbers = re.findall(r'\d+', item.strip()) print(numbers) print("******************************") #定位到包含所有数据内容的元素 data_list=tree.xpath('//ol/li') #对定位到包含所有元素的列表便可遍历,得到包含单条数据的元素 for i in data_list: #提取单条数据中的详细内容 titles=i.xpath(".//span[@class='title'][1]/text()") score=i.xpath(".//span[@class='rating_num'][1]/text()") number=i.xpath(".//div/div[2]/div[2]/div/span[4]/text()") print('电影的名称',titles[0],score[0],'评价人数',number[0])
http://www.cnnetsun.cn/news/161406.html

相关文章:

  • Langchain-Chatchat如何设置问答结果的置信度显示?
  • 33、Windows 8使用指南:系统升级、数据迁移与常用术语解析
  • Langchain-Chatchat支持多模态输入吗?图像理解进展
  • SenseGlove R1外骨骼手套专为机器人遥操作设计
  • Langchain-Chatchat如何实现问答结果的语音播报?
  • 67、Windows 7 磁盘管理与维护:压缩、加密与日常保养
  • 76、Windows 7 网络设置、版本升级及启动环境全解析
  • 91、桌面环境与System V打印系统全解析
  • 99、X Window System 全面指南
  • Langchain-Chatchat如何实现增量式知识更新?
  • 156道JVM面试合集(典藏版)
  • Langchain-Chatchat能否导出知识图谱可视化结果?
  • Spring boot社区医院管理系统信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】
  • 前后端分离MVC自习室管理和预约系统系统|SpringBoot+Vue+MyBatis+MySQL完整源码+部署教程
  • 【必收藏】LangGraph深度研究智能体实战:LangChain官方OpenDeepResearch完整源码解析与本地部署指南
  • 清华/人大/新国大联合发布:AI Agent记忆系统全面解析,解决灾难性遗忘与上下文溢出问题
  • Langchain-Chatchat如何评估知识库问答的准确性?
  • 大语言模型的 “思考” 秘密:一文读懂 prompt 工程核心逻辑
  • Langchain-Chatchat支持Excel表格内容作为知识源吗?
  • 多智能体系统在竞争优势分析中的应用:寻找护城河
  • AI生成的音乐,到底能商用吗
  • Linux GPIO-KEYS
  • OmniThoughtV:面向多模态深度思考的高质量数据蒸馏
  • 面试不是考试,而是“技术交流与信任构建”
  • 45、WPF 打印与 XPS 文档处理全解析
  • 46、WPF应用开发:从打印到过渡效果与世界浏览器应用构建
  • 【仿真测试】基于FPGA的完整64QAM通信链路实现,含频偏锁定,帧同步,定时点,Viterbi译码,信道,误码统计
  • Day35:DMA 原理与架构
  • Java如何通过组件优化WebUploader分片上传效率?
  • 阿里云客服支持与服务状态查询指南