GOT-OCR2.0：阶跃星辰等推出的端到端的OCR模型

AI开源项目3个月前更新 AI-77

0 60

GOT-OCR2.0简介

GOT-OCR2.0是由来自阶跃星辰、Megvii Technology、中国科学院大学和清华大学的研究人员共同开发的一款先进的光学字符识别（OCR）模型。作为OCR-2.0时代的先驱，GOT模型通过其统一的端到端架构，能够高效处理包括文本、数学公式、表格、图表、乐谱乃至几何图形在内的各种人造光学信号。该模型不仅支持多种输入输出格式，还具备交互式识别和高分辨率图像处理的能力，旨在提供更智能、更准确的文档图像理解和识别服务。

GOT-OCR2.0：阶跃星辰等推出的端到端的OCR模型

GOT-OCR2.0主要功能

统一模型架构：GOT作为端到端模型，整合了传统OCR系统中分散的模块，如文本检测、区域裁剪和字符识别，降低维护成本。
多任务处理能力：支持对文本、数学公式、表格、图表、乐谱和几何图形等不同光学信号的识别。
多样化输入输出：能够处理包括切片和整页风格的常见场景和文档图像，并生成纯文本或格式化结果（如Markdown、TikZ、SMILES、KERN）。
交互式OCR特性：支持区域级识别，通过坐标或颜色引导来识别特定区域内的文本。
高分辨率和多页处理：适应高分辨率图像和多页文档的OCR需求，提高了模型的实用性。

GOT-OCR2.0技术原理

高压缩率编码器：使用高压缩比的编码器将光学图像转换为标记，以减少解码器生成新标记所需的标记空间。
长上下文解码器：解码器支持长达8K的最大长度标记，确保能够有效输出密集场景下的OCR结果。
多阶段训练策略：包括解耦预训练编码器、联合训练编码器与新解码器、进一步对解码器进行后训练，以提升模型的泛化能力和适用性。
数据引擎：为了支持不同训练阶段，开发了多个数据引擎用于合成数据生成，这是GOT成功的关键。
动态分辨率和多页技术：通过动态调整分辨率和处理多页文档，增强了模型对超高清图像和PDF文档的处理能力。

GOT-OCR2.0应用场景

文档数字化：将纸质文档转换为可编辑的数字格式，便于存储和进一步处理。
智能助手：在智能手机和平板电脑上，用于识别和编辑照片中的文本内容。
学术研究：辅助研究人员识别和处理科学文献、图表和数据表格中的信息。
音乐制作：自动识别和转录乐谱中的音符和符号，用于音乐教育和表演。
医疗记录管理：将手写或打印的医疗记录转换为电子格式，提高医疗信息管理的效率。
物流和供应链：识别和处理包裹上的地址和标签信息，优化物流跟踪和分拣过程。

GOT-OCR2.0项目入口

GitHub代码库：https://github.com/Ucas-HaoranWei/GOT-OCR2.0/
Hugging Face仓库：https://huggingface.co/stepfun-ai/GOT-OCR2_0
arXiv研究论文：https://arxiv.org/pdf/2409.01704
在线体验：https://huggingface.co/spaces/stepfun-ai/GOT_official_online_demo

# AI开源项目 # AI项目库

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

ScriptViz：斯坦福大学开发的一款剧本可视化辅助工具

AI-77cn

40

Cobra：清华大学联合腾讯推出的高效线稿上色框架

AI-77cn

40

EmoLLM：一款开源的心理健康大模型

AI-77cn

10

3DGS：实时渲染大规模3D场景

AI-77cn

90

AniDoc：将草图序列自动转换为彩色动画

AI-77cn

10

Open Deep Search：华盛顿大学等开源的搜索AI框架

AI-77cn

90

暂无评论

暂无评论...

一站式AI信息服务平台：AI工具大全、AI每日快讯、AI项目库、AI融资快报、AI研究报告、AI教程、AI副业、AI考证等。助您全面系统了解AI、使用AI

关于我们广告合作免责声明柒柒快讯

Copyright © 2025 柒柒AI导航粤ICP备2023146609号-1

粤公网安备44011102483711号