Google赞助广告

LLM-Aided OCR: 开源免费的图像文字识别工具

LLM-Aided OCR: 开源免费的图像文字识别工具

一款开源免费的图像文字识别工具。通过应用大型语言模型(LLM)来增强Tesseract OCR的输出质量,特别适用于扫描的PDF文件。

支持本地LLM和基于API的LLM(如OpenAI和Anthropic),并提供异步处理以提高性能。

示例输出:

功能特性:

  • PDF 到图像的转换
  • 使用 Tesseract 的 OCR
  • 使用(本地或基于 API)进行LLMs高级纠错
  • 智能文本分块,实现高效处理
  • 提供Markdown 格式选项
  • 页眉和页码抑制(可选)
  • 最终产出的质量评估
  • 支持本地LLMs和基于云的 API 提供商(OpenAI、Anthropic)
  • 用于提高性能的异步处理
  • 用于进程跟踪和调试的详细日志记录
  • 用于本地LLM推理的 GPU 加速

项目地址:

Github:https://github.com/Dicklesworthstone/llm_aided_ocr

© 版权声明
THE END
喜欢就支持一下吧
点赞2 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容