Umi-OCR：一款开源、免费的离线OCR软件

0 10

Umi-OCR简介

Umi-OCR是一款开源、免费的离线OCR软件，适用于Windows 7 x64和Linux x64系统。它无需网络连接，解压即可使用，支持截图OCR、批量图片识别、PDF文档识别等功能，还具备排除水印、页眉页脚等干扰项的能力。此外，它能扫描和生成二维码，内置多国语言库，支持文本后处理，优化排版顺序，满足多样化需求。界面友好，支持多语言界面切换，操作便捷。开发者可通过源码参与开发，用户可通过多种渠道下载使用，是一款高效实用的文字识别工具。

Umi-OCR主要功能

截图OCR：
- 快捷键唤起截图，识别图中文字。
- 图片预览栏支持鼠标划选复制，识别记录栏可编辑文字。
- 支持在别处复制图片并粘贴到Umi-OCR进行识别。
- 支持公式识别。
批量OCR：
- 批量导入本地图片进行识别，支持格式包括jpg、png、bmp等。
- 保存识别结果的格式包括txt、jsonl、md、csv（Excel）。
- 支持文本后处理功能，整理OCR文本的排版和顺序。
- 支持任务完成后自动关机或待机。
- 拥有忽略区域功能，排除图片中不需要的文字。
文档识别：
- 支持格式包括pdf、xps、epub、mobi、fb2、cbz。
- 对扫描件进行OCR或提取原有文本，可输出为双层可搜索PDF。
- 支持设定忽略区域，排除页眉页脚的文字。
- 可设置任务完成后自动关机或休眠。
二维码：
- 支持扫码功能，读取图片中的二维码和条形码，支持多种协议。
- 支持生成码功能，输入文本生成二维码图片，支持多种协议和纠错等级参数。
全局设置：
- 一键添加快捷方式或设置开机自启。
- 更改界面语言，支持繁中、英语、日语等多国语言。
- 切换界面主题，支持多个亮/暗主题。
- 调整界面文字的大小和字体。
- 切换OCR插件，调整渲染器以适应不同硬件配置。

Umi-OCR技术原理

离线OCR引擎：
- 内置高效率的离线OCR引擎，支持多种语言识别。
- 支持PaddleOCR-json和RapidOCR-json两种OCR引擎。
图像处理：
- 通过图像预处理技术，提高OCR识别的准确性。
- 支持忽略区域功能，排除不需要的文字区域。
文本后处理：
- 提供多种排版解析方案，整理OCR结果的排版和顺序。
- 支持多栏和单栏布局的自然段换行、总是换行、无换行等处理方式。
多语言支持：
- 内置多国语言库，支持多语言界面和文本识别。
- 支持用户参与本地化翻译，扩展语言支持。
接口调用：
- 支持命令行和HTTP接口调用，方便集成到其他应用中。
- 提供详细的命令行和HTTP接口手册，方便开发者使用。
插件机制：
- 支持OCR插件切换，用户可根据需求选择不同的OCR引擎。
- 预留插件接口，未来可扩展更多功能，如在线OCR、数学公式识别等。

Umi-OCR应用场景

学生学习：学生在学习过程中，经常需要从教材、试卷、课外资料中提取文字信息。Umi-OCR可以快速识别图片或PDF文档中的文字，方便学生整理笔记、制作学习资料。
办公文档处理：办公人员经常需要处理扫描件或图片格式的文件，如合同、报告、发票等。通过Umi-OCR，可以将这些文件中的文字提取出来，转为可编辑的文档，便于进一步编辑、整理和存档。
科研文献整理：科研人员需要从大量的文献中提取关键信息。Umi-OCR能够识别文献中的文字，包括复杂的公式（部分支持），帮助科研人员快速整理文献资料，提高研究效率。
信息采集与录入：在信息采集工作中，如市场调研、数据录入等场景，需要从各种纸质材料或图片中提取文字信息。Umi-OCR可以快速准确地完成文字识别，提高信息采集和录入的效率。
书籍电子化：对于一些纸质书籍，如果需要将其转换为电子版，Umi-OCR可以对扫描后的书籍页面进行文字识别，生成电子文档，方便阅读和分享。
个人资料整理：个人在整理照片、票据、手写笔记等资料时，Umi-OCR可以帮助快速提取其中的文字内容，方便将纸质资料转化为电子形式进行保存和管理。