一款开源免费的图像文字识别工具。通过应用大型语言模型(LLM)来增强Tesseract OCR的输出质量,特别适用于扫描的PDF文件。
支持本地LLM和基于API的LLM(如OpenAI和Anthropic),并提供异步处理以提高性能。
示例输出:
功能特性:
- PDF 到图像的转换
- 使用 Tesseract 的 OCR
- 使用(本地或基于 API)进行LLMs高级纠错
- 智能文本分块,实现高效处理
- 提供Markdown 格式选项
- 页眉和页码抑制(可选)
- 最终产出的质量评估
- 支持本地LLMs和基于云的 API 提供商(OpenAI、Anthropic)
- 用于提高性能的异步处理
- 用于进程跟踪和调试的详细日志记录
- 用于本地LLM推理的 GPU 加速
项目地址:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容