当前位置：首页 > news >正文

MinerU2.5-Pro实战教程：从PDF到Markdown的完整文档转换流程

news 2026/5/30 12:11:21

MinerU2.5-Pro实战教程：从PDF到Markdown的完整文档转换流程

【免费下载链接】MinerU2.5-Pro-2605-1.2B项目地址: https://ai.gitcode.com/OpenDataLab/MinerU2.5-Pro-2605-1.2B

MinerU2.5-Pro是OpenDataLab推出的新一代文档解析模型，专注于PDF到Markdown的高效转换。作为一款数据驱动的文档解析工具，它通过先进的数据工程技术，在不增加模型参数的情况下实现了行业领先的转换精度，为用户提供了简单、快速的文档处理体验。

为什么选择MinerU2.5-Pro进行文档转换？

🌟 卓越的转换性能

MinerU2.5-Pro在OmniDocBench v1.6评测中获得了95.69的SOTA综合评分，全面超越了主流OCR模型和大型视觉语言模型。其核心优势包括：

高精度文本识别：文本编辑距离低至0.036，确保内容准确转换
复杂表格解析：表格TEDS评分达93.62，完美保留表格结构
公式识别能力：公式CDM指标高达97.15，支持复杂数学表达式转换

✨ 实用功能亮点

除了基础转换能力外，MinerU2.5-Pro还提供多项实用功能：

图片与图表解析：支持识别并描述文档中的图表内容
跨页表格合并：智能识别并合并跨页面的表格内容
段落合并功能：自动检测并合并被截断的段落
表格内图片识别：保留表格中的图片元素及其位置

快速开始：安装与配置

📦 环境准备

在开始使用MinerU2.5-Pro前，请确保您的环境满足以下要求：

Python 3.8+
PyTorch 1.10+
足够的显存（推荐16GB以上）

🔧 安装步骤

您可以通过pip快速安装MinerU2.5-Pro的客户端工具：

# 基础安装（使用transformers后端） pip install "mineru-vl-utils[transformers]" # 推荐安装（使用vllm后端，支持更高性能） pip install "mineru-vl-utils[vllm]"

📥 获取模型

使用以下命令克隆项目仓库：

git clone https://gitcode.com/OpenDataLab/MinerU2.5-Pro-2605-1.2B

完整转换流程：从PDF到Markdown

1️⃣ 准备PDF文件

确保您的PDF文件满足以下条件以获得最佳转换效果：

清晰的文本内容（避免模糊或歪斜的扫描件）
合理的页面布局
标准字体（避免过度艺术化的字体）

2️⃣ 模型加载与初始化

使用Transformers后端

from transformers import AutoProcessor, Qwen2VLForConditionalGeneration from PIL import Image from mineru_vl_utils import MinerUClient # 加载模型和处理器 model = Qwen2VLForConditionalGeneration.from_pretrained( "opendatalab/MinerU2.5-Pro-2604-1.2B", dtype="auto", device_map="auto" ) processor = AutoProcessor.from_pretrained( "opendatalab/MinerU2.5-Pro-2604-1.2B", use_fast=True ) # 初始化客户端 client = MinerUClient( backend="transformers", model=model, processor=processor, image_analysis=True # 设置为True以启用图片分析功能 )

使用vLLM后端（推荐）

from vllm import LLM from PIL import Image from mineru_vl_utils import MinerUClient from mineru_vl_utils import MinerULogitsProcessor # 加载模型 llm = LLM( model="opendatalab/MinerU2.5-Pro-2604-1.2B", logits_processors=[MinerULogitsProcessor] # 如使用vllm>=0.10.1 ) # 初始化客户端 client = MinerUClient( backend="vllm-engine", vllm_llm=llm, image_analysis=True # 启用图片分析 )

3️⃣ PDF页面转换为图片

在使用MinerU2.5-Pro前，需要将PDF文件的每一页转换为图片格式。您可以使用PyPDF2和Pillow库实现这一步骤：

from pdf2image import convert_from_path # 将PDF转换为图片列表 pages = convert_from_path('input.pdf', 300) # 300 DPI确保清晰度 # 保存图片（可选） for i, page in enumerate(pages): page.save(f'page_{i+1}.png', 'PNG')

4️⃣ 执行文档解析

使用客户端工具处理每个页面图片：

# 处理单页 page_image = Image.open("page_1.png") result = client.two_step_extract(page_image) # 处理多页 all_results = [] for page in pages: result = client.two_step_extract(page) all_results.extend(result)

5️⃣ JSON结果转换为Markdown

将解析得到的JSON结果转换为Markdown格式：

from mineru_vl_utils.post_process import json2md # 将JSON结果转换为Markdown md_content = json2md(all_results) # 保存为Markdown文件 with open("output.md", "w", encoding="utf-8") as f: f.write(md_content)