LLM-Aided OCR: 开源免费的图像文字识别工具-创世AI

LLM-Aided OCR: 开源免费的图像文字识别工具

LLM-Aided OCR: 开源免费的图像文字识别工具

0412

2个月前发布

一款开源免费的图像文字识别工具。通过应用大型语言模型（LLM）来增强Tesseract OCR的输出质量，特别适用于扫描的PDF文件。

支持本地LLM和基于API的LLM（如OpenAI和Anthropic），并提供异步处理以提高性能。

示例输出：

功能特性：

PDF 到图像的转换
使用 Tesseract 的 OCR
使用（本地或基于 API）进行LLMs高级纠错
智能文本分块，实现高效处理
提供Markdown 格式选项
页眉和页码抑制（可选）
最终产出的质量评估
支持本地LLMs和基于云的 API 提供商（OpenAI、Anthropic）
用于提高性能的异步处理
用于进程跟踪和调试的详细日志记录
用于本地LLM推理的 GPU 加速

项目地址：

Github:https://github.com/Dicklesworthstone/llm_aided_ocr

© 版权声明

文章版权归作者所有，未经允许请勿转载。

THE END

效率提升
# AI # OCR # 图像识别 # AI图像识别

喜欢就支持一下吧

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容