FakeShield：北京推出的多模态大型图像伪造检测和定位框架

0 10

FakeShield简介

FakeShield是由北京大学电子与计算机工程学院的研究团队开发的一种先进的多模态大型图像伪造检测和定位框架。该框架能够评估图像的真实性，生成篡改区域的掩码，并提供基于像素级和图像级线索的判断依据。通过利用GPT-4o增强的多模态篡改描述数据集（MMTDSet）进行训练，FakeShield在检测和定位各种篡改技术方面表现出色，提供了一种可解释且优越的解决方案，超越了以往的图像伪造检测和定位方法。

主要功能

图像真实性评估：FakeShield能够判断给定图像是否经过篡改，提供图像真伪的评估结果。
篡改区域定位：框架能够生成篡改区域的掩码，精确指出图像中被篡改的区域。
篡改检测解释：提供基于像素级和图像级线索的判断依据，包括对象边缘、分辨率一致性、物理规律、透视关系等。
多模态交互：结合视觉和文本特征，通过大型语言模型（LLMs）增强视觉理解能力，提供详细的解释和交互式分析。

技术原理

多模态框架设计：FakeShield采用多模态框架，整合了图像处理和大型语言模型，以处理和分析视觉数据。
领域标签引导：通过领域标签生成器（DTG），为不同的篡改类型分配特定的领域标签，帮助模型区分和处理不同类型的篡改数据。
可解释伪造检测模块（DTEFDM）：利用大型语言模型来分析图像并提供检测结果和解释，增强了模型的可解释性。
多模态伪造定位模块（MFLM）：将文本描述转换为精确的二进制掩码，以直观地表示篡改区域，提高定位的准确性。
GPT-4o数据增强：使用GPT-4o生成详细的图像篡改描述，增强现有的IFDL数据集，构建MMTDSet，用于训练FakeShield的篡改分析能力。
端到端训练：FakeShield的两个子模块（DTEFDM和MFLM）可以独立进行端到端训练，以优化检测和定位性能。
跨模态特征对齐：通过特殊的<SEG>标记和Tamper Comprehension Module（TCM），对齐视觉和语言特征，提升模型对长文本描述的理解和篡改区域的定位能力。