Google赞助广告

MinerU:高质量开源数据提取工具 将PDF转换为机器可读格式

MinerU:高质量开源数据提取工具 将PDF转换为机器可读格式

inerU是一款由上海人工智能实验室OpenDataLab团队开发的开源高质量数据提取工具,MinerU诞生于InternLM的预训练过程中,专注于从复杂PDF文档、网页和电子书中高效提取内容。它能够将包含图片、公式和表格的多模态PDF转化为Markdown格式(如markdown、json),且具备高精度解析工具链,支持多种输入模型,支持自动识别乱码、转换公式为LaTex、保留文档结构,支持176种语言的准确识别,适用于学术、财务、法律等领域,兼容Windows/Linux/Mac平台。

一、关键特性

删除诸如页眉、页脚、脚注和页码等元素,同时保持语义连续性
从多列文档中以人类可读的顺序输出文本
保留文档的原始结构,包括标题、段落和列表
提取图像,图像说明,表格和表格说明
自动识别文档中的公式并将其转换为LaTeX
自动识别文档中的表并将它们转换为LaTeX
自动检测和启用OCR损坏的pdf
支持CPU和GPU两种环境
支持Windows、Linux和Mac平台

二、截图

图片[1]-MinerU:高质量开源数据提取工具 将PDF转换为机器可读格式-创世AI

图片[2]-MinerU:高质量开源数据提取工具 将PDF转换为机器可读格式-创世AI

三、地址

网站:https://opendatalab.com/OpenSourceTools/Extractor/PDF

GitHub:https://github.com/opendatalab/MinerU

 

© 版权声明
THE END
喜欢就支持一下吧
点赞3 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容