MinerU0.10.0

大小:363.06MB

版本:0.10.0

语言:简中

更新:2025-11-23

普通下载
资源说明

MinerU是一款非常实用的智能数据提取软件,软件功能强大,操作简单易用,提供70多种语言,专注于PDF文档的高效解析,能够快速处理复杂的多模态 PDF 文档,如图片、表格、公式和脚注等,支持多种输出格式,包括 Markdown、content.json 和 listlayout.json 等,满足全球用户的需求,感兴趣的小伙伴赶快下载使用吧!

MinerU软件功能

1、删除页眉、页脚、脚注、页码等元素,保证语义连贯。

2、按照人类阅读顺序输出文本,适用于单栏、多栏和复杂排版。

3、保留原始文档的结构,包括标题、段落、列表等。

4、提取图像、图片说明、表格、表格标题和脚注。

MinerU0.10.0

5、自动识别文档中的公式并将其转换为LaTeX格式。

6、自动识别文档中的表格并将其转换为HTML格式。

7、自动检测扫描的PDF和失真的PDF,并启用OCR功能。

8、OCR支持109种语言的检测和识别。

MinerU0.10.0

9、支持多种输出格式,如多模态和NLP的Markdown、按阅读顺序排序的JSON、信息丰富的中间格式等。

10、支持多种可视化结果,包括布局可视化、跨度可视化等,便于高效确认输出效果和质量检查。

11、支持纯CPU环境,支持GPU(CUDA)/NPU(CANN)/MPS加速。

12、兼容Windows、Linux和Mac平台。

MinerU软件安装步骤

1、在本站下载软件安装包,点击我同意继续安装;

MinerU0.10.0

2、选择安装选项,点击下一步;

MinerU0.10.0

3、自定义选择安装位置,点击安装。

MinerU0.10.0

MinerU软件更新日志

2025/11/04 2.6.4 发布

为pdf渲染图片增加超时配置,默认为300秒,可通过环境变量MINERU_PDF_RENDER_TIMEOUT进行配置,防止部分异常pdf文件导致渲染过程长时间阻塞。

为onnx模型增加cpu线程数配置选项,默认为系统cpu核心数,可通过环境变量MINERU_INTRA_OP_NUM_THREADS和MINERU_INTER_OP_NUM_THREADS进行配置,以减少高并发场景下的对cpu资源的抢占冲突。

2025/10/31 2.6.3 发布

增加新后端vlm-mlx-engine支持,在Apple Silicon设备上支持使用MLX加速MinerU2.5模型推理,相比vlm-transformers后端,vlm-mlx-engine后端速度提升100%~200%。

bug修复: #3849 #3859

2025/10/24 2.6.2 发布

pipline后端优化

增加对中文公式的实验性支持,可通过配置环境变量export MINERU_FORMULA_CH_SUPPORT=1开启。该功能可能会导致MFR速率略微下降、部分长公式识别失败等问题,建议仅在需要解析中文公式的场景下开启。如需关闭该功能,可将环境变量设置为0。

OCR速度大幅提升200%~300%,感谢 @cjsdurj 提供的优化方案

OCR模型优化拉丁文识别的准度和广度,并更新西里尔文(cyrillic)、阿拉伯文(arabic)、天城文(devanagari)、泰卢固语(te)、泰米尔语(ta)语系至ppocr-v5版本,精度相比上代模型提升40%以上

vlm后端优化

table_caption、table_footnote匹配逻辑优化,提升页内多张连续表场景下的表格标题和脚注的匹配准确率和阅读顺序合理性

优化使用vllm后端时高并发时的cpu资源占用,降低服务端压力

适配vllm0.11.0版本

通用优化

跨页表格合并效果优化,新增跨页续表合并支持,提升在多列合并场景下的表格合并效果

为表格合并功能增加环境变量配置选项MINERU_TABLE_MERGE_ENABLE,表格合并功能默认开启,可通过设置该变量为0来关闭表格合并功能

2025/09/26 2.5.4 发布

MinerU2.5技术报告现已发布,欢迎阅读全面了解其模型架构、训练策略、数据工程和评测结果。

修复部分pdf文件被识别成ai文件导致无法解析的问题

2025/09/20 2.5.3 发布

依赖版本范围调整,使得Turing及更早架构显卡可以使用vLLM加速推理MinerU2.5模型。

pipeline后端对torch 2.8.0的一些兼容性修复。

降低vLLM异步后端默认的并发数,降低服务端压力以避免高压导致的链接关闭问题。

更多兼容性相关内容详见公告

软件合集更多

办公软件有哪些更多

办公软件在提高生产力、简化文件管理、促进团队合作和数据分析方面发挥着重要作用。办公软件大大提高了打工人们的工作效率。通过自动执行重复性任务和提供协作平台,办公软件减少了人为错误和时间浪费。下面就为大家推荐一些常用的办公软件。

相关软件
福昕数据恢复软件1.0.10423.16

福昕数据恢复软件1.0.10423.16

下载
福昕数据恢复软件是一款数据文件恢复软件,软件支持恢复不同存储介质数据:硬盘、光盘、U盘/移动硬盘、数码相机、手机、Raid文件恢复等,能恢复包括文档、表格、图片、音视频等各种文件,感兴趣的朋友不妨一起来下载!
大小:45.23MB 时间:2026-05-20
傲软数据恢复14.5.0.0

傲软数据恢复14.5.0.0

下载
傲软数据恢复是一款简单实用的磁盘数据恢复软件,软件操作简单便捷,用户只需要指定扫描位置即可,适用于误删除、格式化、分区丢失、重装系统、中毒、意外断电等多种场景,满足用户的各种数据恢复功能需求,有需要的用户赶紧下载体验吧。
大小:1.78MB 时间:2026-05-18
数据恢复精灵专业版

数据恢复精灵专业版

下载
数据恢复精灵软件是一款功能强大且简单易用的数据恢复软件,基于DiskGenius内核开发而成,它能让您迅速地恢复丢失的文件或分区,该软件界面简捷、容易上手,使用数据恢复精灵,您可以恢复丢失的分区,恢复误删除的文件,恢复误格式化的分区,以及恢复因各种原因造成的分区被破坏而无法打开的情况,对专业版有需求的用户快来下载吧!
大小:31.93MB 时间:2026-05-15
Web Data Miner(数据提取工具)v5.2.3.33

Web Data Miner(数据提取工具)v5.2.3.33

下载
Web Data Miner(数据提取工具)是一款简易实用,功能全面的数据提取工具,可帮助用户从网站上提取需要的数据,并将其导出到Excel表格中。软件支持创建任务,在短时间内即可完成所有页面的提取工作,有喜欢的小伙伴快来下载吧!
大小:9MB 时间:2026-05-07
最新软件
科莱尔电工仿真教学软件最新版

科莱尔电工仿真教学软件最新版

下载
科莱尔电工仿真教学软件是一款专为电工技术学习和实践设计的专业工具,以高度仿真的虚拟环境为核心,还原真实电工操作场景,涵盖基础电路、工业控制电路、电机控制等多类实训内容,内置丰富的电子元件和标准化课程。用户可亲手搭建电路、模拟设备运行,实时查看电流、电压等参数变化,还能进行故障排查练习,兼顾理论学习与实操训练。
大小:7.74MB 时间:2026-05-20
柚子相机网页版

柚子相机网页版

下载
柚子相机是一款专业的电脑图片编辑软件,操作简单,效果更专业!用户可以使用它对图片进行修图,并根据自己喜欢的风格进行调整,使其更加美观,最有质感的顶级滤镜,最高效的图片编辑功能,最惊艳的人像美颜效果,让普通照片一秒钟成为大师级摄影作品,对该软件网页版感兴趣的小伙伴快来下载使用吧!
大小:22MB 时间:2026-05-20
NeatReader最新版

NeatReader最新版

下载
NeatReader是一款界面清晰、操作便捷、功能实用的ePub阅读工具。NeatReader致力于打造满足现代生活需要,是全球唯一一款支持多端同步的ePub阅读器,解析能力比市面上大部分的epub阅读器都强,而且提供了很多的自定义设置,这是一款很不错的软件,对该软件最新版有兴趣的朋友可以下载哦!
大小:59.41MB 时间:2026-05-20
精灵壁纸1.0.0.36

精灵壁纸1.0.0.36

下载
精灵壁纸是一款十分优秀的壁纸软件,软件功能强大,操作简单易用,提供丰富的超清4K动态壁纸、静态壁纸、互动壁纸,内置丰富的壁纸资源,涵盖各种不同类型和风格的壁纸,美女、动漫、汽车等类型应有尽有,满足了不同用户的使用需求,有喜欢的小伙伴就来下载体验吧!
大小:83.20MB 时间:2026-05-20

玩家点评 0人参与,0条评论)

收藏
违法和不良信息举报
分享:

热门评论

全部评论

编辑推荐