第27天:Python操作PDF文件
Python学习100天(从入门到精通系列文章)
文章目录
- Python学习100天(从入门到精通系列文章)
- 前言
- 一、从PDF中提取文本
- 1.1 使用 PyPDF2 提取文本
- 1.2 使用 pdfminer.six 命令行工具
- 二、旋转和叠加页面
- 三、加密PDF文件
- 四、批量添加水印
- 五、创建PDF文件
- 总结
前言
在日常开发工作中,PDF 是最常见的文档格式之一。无论是从 PDF 中提取文本、添加水印,还是直接生成 PDF 报告,掌握 Python操作PDF 的技能都是每个开发者必备的基本功。今天我们就来学习如何用 Python 玩转 PDF文件。
一、从PDF中提取文本
1.1 使用 PyPDF2 提取文本
PDF 是 Portable Document Format 的缩写,这类文件通常使用.pdf作为其扩展名。在 Python 中,可以使用名为PyPDF2的三方库来读取 PDF文件。
首先安装 PyPDF2:
pipinstallPyPDF2PyPDF2没有办法从 PDF 文档中提取图像、图表或其他媒体,但它可以提取文本,并将其返回为 Python 字符串:
importPyPDF2 reader=PyPDF2.