MinerU：高质量开源数据提取工具将PDF转换为机器可读格式-创世AI

MinerU：高质量开源数据提取工具将PDF转换为机器可读格式

MinerU：高质量开源数据提取工具将PDF转换为机器可读格式

0213

2个月前更新

inerU是一款由上海人工智能实验室OpenDataLab团队开发的开源高质量数据提取工具，MinerU诞生于InternLM的预训练过程中，专注于从复杂PDF文档、网页和电子书中高效提取内容。它能够将包含图片、公式和表格的多模态PDF转化为Markdown格式（如markdown、json），且具备高精度解析工具链，支持多种输入模型，支持自动识别乱码、转换公式为LaTex、保留文档结构，支持176种语言的准确识别，适用于学术、财务、法律等领域，兼容Windows/Linux/Mac平台。

一、关键特性

删除诸如页眉、页脚、脚注和页码等元素，同时保持语义连续性
从多列文档中以人类可读的顺序输出文本
保留文档的原始结构，包括标题、段落和列表
提取图像，图像说明，表格和表格说明
自动识别文档中的公式并将其转换为LaTeX
自动识别文档中的表并将它们转换为LaTeX
自动检测和启用OCR损坏的pdf
支持CPU和GPU两种环境
支持Windows、Linux和Mac平台

二、截图

图片[1]-MinerU：高质量开源数据提取工具将PDF转换为机器可读格式-创世AI

图片[2]-MinerU：高质量开源数据提取工具将PDF转换为机器可读格式-创世AI

三、地址

网站：https://opendatalab.com/OpenSourceTools/Extractor/PDF

GitHub：https://github.com/opendatalab/MinerU

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

效率提升
# AI # MinerU # 高质量开源数据提取工具

喜欢就支持一下吧

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容