GOT-OCR2.0:阶跃星辰等推出的端到端的OCR模型

GOT-OCR2.0简介

GOT-OCR2.0是由来自阶跃星辰、Megvii Technology、中国科学院大学和清华大学的研究人员共同开发的一款先进的光学字符识别(OCR)模型。作为OCR-2.0时代的先驱,GOT模型通过其统一的端到端架构,能够高效处理包括文本、数学公式、表格、图表、乐谱乃至几何图形在内的各种人造光学信号。该模型不仅支持多种输入输出格式,还具备交互式识别和高分辨率图像处理的能力,旨在提供更智能、更准确的文档图像理解和识别服务。

GOT-OCR2.0:阶跃星辰等推出的端到端的OCR模型

GOT-OCR2.0主要功能

  1. 统一模型架构:GOT作为端到端模型,整合了传统OCR系统中分散的模块,如文本检测、区域裁剪和字符识别,降低维护成本。
  2. 多任务处理能力:支持对文本、数学公式、表格、图表、乐谱和几何图形等不同光学信号的识别。
  3. 多样化输入输出:能够处理包括切片和整页风格的常见场景和文档图像,并生成纯文本或格式化结果(如Markdown、TikZ、SMILES、KERN)。
  4. 交互式OCR特性:支持区域级识别,通过坐标或颜色引导来识别特定区域内的文本。
  5. 高分辨率和多页处理:适应高分辨率图像和多页文档的OCR需求,提高了模型的实用性。

GOT-OCR2.0技术原理

  1. 高压缩率编码器:使用高压缩比的编码器将光学图像转换为标记,以减少解码器生成新标记所需的标记空间。
  2. 长上下文解码器:解码器支持长达8K的最大长度标记,确保能够有效输出密集场景下的OCR结果。
  3. 多阶段训练策略:包括解耦预训练编码器、联合训练编码器与新解码器、进一步对解码器进行后训练,以提升模型的泛化能力和适用性。
  4. 数据引擎:为了支持不同训练阶段,开发了多个数据引擎用于合成数据生成,这是GOT成功的关键。
  5. 动态分辨率和多页技术:通过动态调整分辨率和处理多页文档,增强了模型对超高清图像和PDF文档的处理能力。

GOT-OCR2.0应用场景

  1. 文档数字化:将纸质文档转换为可编辑的数字格式,便于存储和进一步处理。
  2. 智能助手:在智能手机和平板电脑上,用于识别和编辑照片中的文本内容。
  3. 学术研究:辅助研究人员识别和处理科学文献、图表和数据表格中的信息。
  4. 音乐制作:自动识别和转录乐谱中的音符和符号,用于音乐教育和表演。
  5. 医疗记录管理:将手写或打印的医疗记录转换为电子格式,提高医疗信息管理的效率。
  6. 物流和供应链:识别和处理包裹上的地址和标签信息,优化物流跟踪和分拣过程。

GOT-OCR2.0项目入口

© 版权声明

相关文章

暂无评论

暂无评论...