inerU是一款由上海人工智能实验室OpenDataLab团队开发的开源高质量数据提取工具,MinerU诞生于InternLM的预训练过程中,专注于从复杂PDF文档、网页和电子书中高效提取内容。它能够将包含图片、公式和表格的多模态PDF转化为Markdown格式(如markdown、json),且具备高精度解析工具链,支持多种输入模型,支持自动识别乱码、转换公式为LaTex、保留文档结构,支持176种语言的准确识别,适用于学术、财务、法律等领域,兼容Windows/Linux/Mac平台。
一、关键特性
删除诸如页眉、页脚、脚注和页码等元素,同时保持语义连续性
从多列文档中以人类可读的顺序输出文本
保留文档的原始结构,包括标题、段落和列表
提取图像,图像说明,表格和表格说明
自动识别文档中的公式并将其转换为LaTeX
自动识别文档中的表并将它们转换为LaTeX
自动检测和启用OCR损坏的pdf
支持CPU和GPU两种环境
支持Windows、Linux和Mac平台
二、截图
三、地址
网站:https://opendatalab.com/OpenSourceTools/Extractor/PDF
GitHub:https://github.com/opendatalab/MinerU
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容