EAFormer：复旦大学研发的边缘感知文本分割技术

0 80

EAFormer简介

EAFormer是一种先进的场景文本分割技术，由复旦大学的智能信息处理研究团队开发。这项技术通过利用边缘感知变换器（Edge-Aware Transformers），特别关注文本边缘的精确分割，从而提升了文本编辑和移除任务的效果。EAFormer包含三个主要模块：文本边缘提取器、边缘引导编码器和基于MLP的解码器，它们协同工作以实现更准确的文本区域分割。该研究团队还对现有数据集进行了重新标注，以确保实验结果的准确性和可靠性。

EAFormer主要功能

文本分割: EAFormer能够从场景图像中准确分割出文本区域，这对于文档分析、场景理解等应用至关重要。
边缘感知: 该模型特别关注文本的边缘区域，以提供更精细的分割结果，有助于改善文本编辑或移除任务的效果。
性能提升: 通过专注于边缘，EAFormer在文本边缘的分割上比现有方法有显著的性能提升。

EAFormer技术原理

文本边缘提取器: 使用传统的边缘检测算法（如Canny算法）来检测图像中的边缘，并采用轻量级文本检测模型来过滤非文本区域的边缘。
边缘引导编码器: 基于SegFormer框架，EAFormer在编码器的第一阶段引入了对称交叉注意力模块，利用过滤后的文本边缘引导编码器更专注于文本边缘。
MLP解码器: 使用多层感知器（MLP）来融合编码器的输出特征，并预测文本掩模，从而实现文本区域的精确分割。
损失函数优化: EAFormer使用两个交叉熵损失函数（文本检测损失和文本分割损失），通过超参数λ来平衡这两个损失，简化了模型训练过程中的超参数选择。
数据集重新标注: 为了确保实验结果的准确性和可信度，研究团队对一些基准数据集进行了重新标注，以解决原始标注不准确的问题。