网站首页 > 精选文章 正文
MinerU是什么?
MinerU是一款强大的开源pdf、word、ppt数据提取工具,尤其能够将复杂多模态 PDF/PPT 文档转化为Markdown/JSON结构化数据格式,当文档中出现影印文本、文图混合、数学公式、表格、脚注等复杂内容时,MinerU都能够精确识别,提取内容保留原文层级,保证内容连贯,大幅提升AI语料的采集效率。
核心特性
- OCR功能** - 检测扫描版PDF,启用OCR功能进行文字识别。
- 语义一致性** - 移除页眉、移除脚注,保持核心内容连贯。
- 人类可读性** - 支持单列排列和多列排列,优化阅读格式。
- Σ 公式转换** - 识别文档中的公式,并能转换为LaTeX格式。
- 多语言支持** - 提供语言检测和语言识别功能。
- 多样化内容提取** - 支持提取文档中的图像和表格。
- 结构保留** - 保留文档原有的标题和段落结构。
- 跨平台兼容性** - 支持Windows、Linux、Mac等主流操作系统平台。
- 表格转换** - 识别文档中的表格,并能将其转换为Markdown表格格式。
应用场景
- 学术研究:批量处理学术论文PDF,讲稿PPT,建立学术文献知识库,支持智能检索和分析快速构建研究领域知识库。
- 企业文档:处理商业合同、报告,提取会议记录、培训材料等内容,将企业各类文档转为结构化数据,实现智能归档和知识管理。
- 教育培训:将教材、讲义等教学资源数字化,支持在线学习系统建设。
- AI训练:批量处理文档生成高质量训练语料;提取专业领域文档构建垂直领域知识库;高效生成结构化训练语料,为AI模型提供优质学习数据。
- 档案管理:政府公文、历史档案、图书馆馆藏资料的智能数字化和结构化存储。
- 医疗健康:处理病历、检验报告等医疗文档,提取医学文献用于研究分析,建立医疗知识库支持临床决策。
- 法律文书:提取法律文件关键信息,理判决书、合同等文书,构建法律知识库支持案例检索。
这些场景都需要处理大量包含复杂格式的文档,而MinerU的多模态处理能力和结构化输出特点,可以大大提高工作效率,降低人工处理成本。
快速使用
可以通过在线平台,客户端下载和本地部署来使用MinerU。
在线使用
- HuggingFace空间
- ModelScope
客户端下载
官网地址:mineru.net/client
效果展示
原文:
提取内容:
原文:
提取内容:
私有化部署
为什么要私有化?
在线平台和客户端均依赖于第三方和官方的算力资源,遇到资源紧张时需要排队,同时有企业考虑到信息的安全,私有化数据不宜上传到公共平台,因此就需要我们私有化部署MinerU,在私有平台进行数据转换。
下面来重点介绍私有化环境中部署MinerU和应用的实践。
安装环境
硬件环境
- 百度智能云 GPU 服务器。
本文以百度智能云 GPU 服务器为例进行安装部署,购买计算型 GN5 服务器, 配置 16 核 CPU,64GB 内存,Nvidia Tesla A10 单卡 24G显存,搭配 100GB SSD 数据盘, 安装 Windows 2022 Server 系统 或 CentOS 7.8系统。
- 如果您使用自己的环境部署,建议 NVIDIA GPU,民用卡 30、40 系列,商用卡 T4、V100、A10 等系列,至少8G以上显存。服务器配置建议最低配置为 8 核 32 G 100G 磁盘,5M 带宽。
软件环境
- NVIDIA-SMI 535.216.03,CUDA Version: 12.2, 官方要求cuda版本>=12.1
- Miniforge3-24.9.2-0-Linux
- python3.10
安装步骤
服务器部署
- 购买GPU服务器安装ubuntu 20.04系统
- 选择自定义GPU驱动
Python运行环境部署
- conda环境准备
执行如下命令安装conda
wget "https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname -m).sh"
2. conda 创建mineru 环境
conda create -n MinerU python=3.10
conda activate MinerU
MinerU软件安装
- 安装mineru
pip install -U magic-pdf\[full\] --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple
- 测试安装
magic-pdf --version
可执行文件位于:
/root/miniforge3/envs/MinerU/bin/magic-pdf
命令帮助:
Usage: magic-pdf [OPTIONS]
Options:
-v, --version display the version and exit
-p, --path PATH local filepath or directory. support PDF, PPT,
PPTX, DOC, DOCX, PNG, JPG files [required]
-o, --output-dir PATH output local directory [required]
-m, --method [ocr|txt|auto] the method for parsing pdf. ocr: using ocr
technique to extract information from pdf. txt:
suitable for the text-based pdf only and
outperform ocr. auto: automatically choose the
best method for parsing pdf from ocr and txt.
without method specified, auto will be used by
default.
-l, --lang TEXT Input the languages in the pdf (if known) to
improve OCR accuracy. Optional. You should
input "Abbreviation" with language form url: ht
tps://paddlepaddle.github.io/PaddleOCR/latest/e
n/ppocr/blog/multi\_languages.html#5-support-
languages-and-abbreviations
-d, --debug BOOLEAN Enables detailed debugging information during
the execution of the CLI commands.
-s, --start INTEGER The starting page for PDF parsing, beginning
from 0.
-e, --end INTEGER The ending page for PDF parsing, beginning from
0.
--help Show this message and exit.
模型下载
- 下载模型
pip install modelscope
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download\_models.py -O download\_models.py
python download\_models.py
模型下载完成之后,脚本会自动生成用户目录下的magic-pdf.json文件,并自动配置默认模型路径。您可在【用户目录】下找到magic-pdf.json文件。
The configuration file has been configured successfully, the path is: /root/magic-pdf.json
GPU加速
- GPU加速修改【用户目录】中配置文件 magic-pdf.json 中”device-mode”的值
{
"device-mode":"cuda"
}
2. 运行以下命令测试 cuda 加速效果
magic-pdf -p small_ocr.pdf -o ./output
3. demo测试
- 为 ocr 开启 cuda 加速
- 下载paddlepaddle-gpu, 安装完成后会自动开启ocr加速
python -m pip install paddlepaddle-gpu==3.0.0b1 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
运行以下命令测试ocr加速效果
magic-pdf -p small_ocr.pdf -o ./output
MinerU应用
复杂文档提取测试
PDF内容提取
- 准备一个复杂点的pdf文档
如下文档中包括文字,表格,有图片,并且有多栏式(Multi-column)排版布局。
- 内容提取。
magic-pdf -p pdf/source_file_name.pdf -o ./output -m ocr -s 0 -e 42
命令帮助:
Usage: magic-pdf [OPTIONS]
-p 指定输入文件和目录
-o 指定输出目录
-m 指定解析方式, 因为有图片,所以我选择ocr
-s 解析pdf的起始页码,默认为0
-e 解析pdf的终止页码,因为我的pdf有40多页,我希望分别解析
- 识别效果
识别的结果可以为markdown格式,也可以为json。以下是markdown展示效果
- PDF中文字提取效果:
- PDF中的表格提取效果:
PPT内容提取
- PPT文档中会包含文字,图片,表格,并且三种元素可能存在交错布局。
识别的效果
考虑到MinerU的环境配置相对复杂,特此制作了Windows系统的环境一键整合包,方便用户使用。该整合包包含使用说明文档,适用于Windows11系统(其他系统未测试,如有问题可留言反馈)。
下载地址
MinerU环境一键整合包下载地址
链接:
https://pan.quark.cn/s/02a0b9ba8d58
提取码:关注后回复 MinerU
使用说明
使用非常简单,无需复杂安装部署,下载后解压即可使用。已经包含了模型,整合了Python单独的环境以及所需的包,独立不干扰系统环境,小白也能轻松上手,也可用于二次开发。
使用前准备:需要安装里面的cuda,安装cuda的教程可自行百度,如果已经安装请忽略。如果之前安装有cuda报错,可卸载之前的cuda,安装整合包中的cuda11.8版本。
解压注意事项:解压后可运行,可解压到任意位置,但路径最好不要包含中文或有空格的文件夹,以免导致各种问题。
网页版
点击运行运行网页版.bat, 运行网页版界面,
和
https://www.modelscope.cn/studios/OpenDataLab/MinerU 功能一样
除此之外, 将页数限制改成了100000, 新增支持一次处理多个文件, 文件格式支持多种
桌面版
点击运行桌面版.bat, 运行桌面版界面, 功能和网页版的差不多, 喜欢用哪个选哪个
目录说明
models # 模型目录
output # 输出文件夹
projects # 项目文件夹
python # 环境文件夹
magic-pdf.json # magic-pdf配置文件
small_ocr.pdf # PDF测试文件
运行桌面版.bat # 桌面版运行脚本
运行网页版.bat # 网页版运行脚本
下一期讲如何二次开发,和使用知识库进行二次内容展开
如有任何不明白,可以关注后留言
猜你喜欢
- 2025-07-06 Linux系统各个文件介绍(linux系统各个文件夹及用处)
- 2025-07-06 Kali Linux 简单介绍(kali linux的各种玩法)
- 2025-07-06 别让Linux基础拖后腿!这些基本功你真的了解吗?
- 2025-07-06 Linux 命令 fgrep (文档编辑)——想玩转linux就请一直看下去
- 2025-07-06 统一操作系统UOS适配NTKO Office控件:浏览器在线编辑文档
- 2025-07-06 python 利用python读取DOC文件(python-docx读取文档内容)
- 2025-07-06 嵌入式Linux系统编程——连进程间通信都不懂,还自称linux大神?
- 2025-07-06 软网推荐:快速变身 图片数学公式转换可编辑文档
- 2025-07-06 Linux 命令 sort (文档编辑)——想玩转linux就请一直看下去
- 2025-07-06 【推荐】一款开源免费、适合个人和小型团队在线文档系统
- 最近发表
-
- OWL框架(Odoo):有回勾、反应器和并发的基于组件的类
- 前端进阶之Yarn使用教程(前端 lerna)
- 定制网站建设的流程有哪些?(定制网站建设报价)
- Bootstrap在React中的实现,易于使用的React组件——Reactstrap
- web前端需要掌握什么知识(web前端要做什么)
- Vue3+Bootstrap5项目初始化(vue初始化数据放在哪里合适)
- 专为Vue打造的开源表单验证框架,Github star7k+——VeeValidate
- 开源软件分享-VUE后台管理模板(vue后端管理系统)
- Vue3+Bootstrap5整合:企业级后台管理系统实战
- Linux系统各个文件介绍(linux系统各个文件夹及用处)
- 标签列表
-
- 向日葵无法连接服务器 (32)
- git.exe (33)
- vscode更新 (34)
- dev c (33)
- git ignore命令 (32)
- gitlab提交代码步骤 (37)
- java update (36)
- vue debug (34)
- vue blur (32)
- vscode导入vue项目 (33)
- vue chart (32)
- vue cms (32)
- 大雅数据库 (34)
- 技术迭代 (37)
- 同一局域网 (33)
- github拒绝连接 (33)
- vscode php插件 (32)
- vue注释快捷键 (32)
- linux ssr (33)
- 微端服务器 (35)
- 导航猫 (32)
- 获取当前时间年月日 (33)
- stp软件 (33)
- http下载文件 (33)
- linux bt下载 (33)