北京大学的推敲东说念主员建立了一种新式多模态框架 FakeShieldav 巨乳,大概检测图像伪造、定位批改区域,并提供基于像素和图像语义诞妄的合剖析释,不错提高图像伪造检测的可深入性和泛化智商。
跟着生成式东说念主工智能(AIGC)的迅猛发展,图像剪辑与合成本事变得更加闇练与普及。这一趋势为图像内容创作带来了通俗的同期,也权臣加多了批改检测的难度。
用户大概通过 Photoshop、DeepFake、AIGC 等用具对图像进行高质地剪辑,且频频不留任何印迹。在此布景下,如何准确检测并定位批改区域,成为了学术界与工业界的热情重心。
尽管现存的图像批改检测与定位(IFDL)算法在网罗结构和进修政策上获取了一定进展,但仍存在几个主要问题:
1. 大无数步调接受黑箱模子,仅输出真确性概率,贫苦详备的检测深入,导致用户对截至的信任度镌汰。
2. 现存算法常常针对特定批改本事,贫苦疏忽千般化批改妙技的智商,镌汰了实用性。
为了管理这些问题,如图 1 所示,北京大学与华南理工大学的推敲团队提议了一种全新的任务:可深入的图像伪造检测与定位(e-IFDL),并设想了一个新颖的多模态伪造检测定位框架:FakeShield。
论文地址:https://arxiv.org/ abs / 2410.02761名目主页:https://zhipeixu.github.io/ projects / FakeShield/GitHub 地址:https://github.com/ zhipeixu / FakeShield集结多模态大说话模子的视觉和说话剖析智商,末端在检测图像真确性,生成批改区域掩膜的同期,提供详备深入,进而增强了检测定位经由的透明性与泛化性。
图 1:(a) 传统 IFDL 步调,(b) 可深入的 IFDL 步调为了管理现存 IFDL 步调的不及,FakeShield 提议了以下主要孝敬:
1. 提议了首个多模态大模子框架用于图像批改检测与定位,不仅末端了检测与定位经由的解耦,还提供了合理的判断依据,管理了现存步调的黑箱问题。
2. 行使 GPT-4o 丰富现存 IFDL 数据集,构建了多模态批改神情数据集(MMTD-Set),通过热情不同批改特征,生成「图像-掩膜-神情」三元组,提高了模子的分析智商。
3. 设想了基于范畴标签指示的深入性批改检测模块(DTE-FDM),在单一模子中检测多种批改类型,缓解了数据域打破问题。同期,通过多模态批改定位模块(MFLM),对都视觉和说话特征,末端精确的批改区域定位。
基于上述立异,FakeShield 不仅擢升了批改检测定位的准确性和深入性,还权臣增强了模子的适应性和实用性,为图像批改检测范畴提供了一种全面而高效的管理决策。
MMTD-Set 数据集如图 2 所示,咱们阐述批改步调,将批改图片分为 PhotoShop、DeepFake、AIGC-Editing 三个数据域。基于现存的 IFDL 数据集,咱们行使 GPT-4o 生成关于批改图像的分析与神情,构建「图像-掩膜-神情」三元组,以相沿模子的多模态进修。另外,针对不同批改类型,咱们设想了特定的神情指示,指示 GPT 热情不同的像素伪影和语义诞妄。
图 2:MMTD-Set 数据集构建经由在 MMTD-Set 的构建经由中,prompt 设想是要害枢纽,旨在确保 GPT-4o 能准确生成与批改图像关联的高质地神情。在输入剪辑后的图像过火二值掩膜时,prompt 的设想围绕两个主要方面张开:批改区域的定位和可见细节的捕捉。
在定位神情中,GPT-4o 需要对批改区域的都备位置和相对位置进行明晰抒发。都备位置指批改区域在统统这个词图像中的位置,如「图像的左上角」或「围聚图像下半部分」。相对位置则条目神情批改区域与其他物体之间的关系,如「在桌面上方」或「围聚东说念主群」。这种双重神情的设想不错匡助模子更准确地感知批改区域在图像中的位置,确保输出的掩膜与履行批改区域一致。
在可见细节的捕捉上,prompt 重心热情多种视觉十分,这些十分响应了批改经由中可能留住的伪影和逻辑诞妄。
关于 Photoshop 批改,prompt 重心热情像素级伪影和不当然的边际,条目模子查抄光照一致性、像素恶浊和分辨率变化,同期判断是否违犯物理法律深入,如缺失的暗影或透视关系分歧理。在 DeepFake 数据中,prompt 强调面部细节和语义逻辑,条目模子稳健皮肤纹理的连贯性、神志的当然性以及光影的匹配,寄望面部对称性和眼睛反射的十分。
关于 AIGC 剪辑,prompt 聚焦于翰墨生成和视觉逻辑,条目分析翰墨拼写是否正确、摆设是否合理,并判断场景中光影和对象位置的合感性。这种针对不同批改类型的 prompt 设想确保了 FakeShield 在检测与深入上的高效性和准确性。
FakeShield 框架如图 3 所示,该框架包括域标签指示的可深入伪造检测模块(Domain Tag-guided Explainable Forgery Detection Module,DTE-FDM)和多模态伪造定位模块(Multi-modal Forgery Localization Module,MFLM)两个要害部分。
DTE-FDM 认真图像伪造检测与检测截至分析,行使数据域标签(domain tag)弥合不同伪造类型数据之间的数据域打破,指示多模态大说话模子生成检测截至及判定依据。MFLM 则使用 DTE-FDM 输出的关于批改区域的神情动作视觉分割模子的 Prompt,指示其精详情位批改区域。
图 3:FakeShield 框架图Domain Tag-guided Explainable Forgery Detection Module(DTE-FDM)
DTE-FDM 模块认真图像伪造检测与检测截至的分析,通过生成数据域标签(domain tag)来缓解不同伪造类型数据(如 Photoshop 剪辑、DeepFake、AIGC 剪辑)之间的数据域打破。这些标签指示多模态大说话模子(LLM)聚焦于千般型批改的特征,末端针对性检测与深入。
在检测经由中,输入图像 I_ori 通过数据域标签生成器 G_dt 分拨特定标签 T_tag,标明该图像的伪造类型。接着,图像经过编码器 F_enc 和线性投影层 F_proj 转机为特征向量 T_img。
这些图像特征与指示文本 T_ins 一并输入 LLM,生成检测截至 O_det,包括是否批改、具体的批改区域神情以及深入性分析。
具体经由如下:
DTE-FDM 不仅判断图像的真确性,还阐述不同伪造类型生成详备的判定依据,包括光照一致性、边际伪影、分辨率互异等。这种设想确保模子大概疏忽千般化的伪造场景,增强了检测的准确性和深入性,使 FakeShield 在疏忽复杂批改任务时具有更强的泛化智商与实用性。
Multi-modal Forgery Localization Module(MFLM)
MFLM 模块认真精确定位图像中的批改区域,通过多模态特征对都的步地将文本和视觉信息和会,从而生成准确的批改掩膜。MFLM 的设想旨在管理仅依赖单一模态信息所带来的定位不准确问题,增强对复杂批改区域的识别智商。
在 MFLM 中,输入的图像 I_ori 经过 Tamper Comprehension Module (TCM) 编码,将图像特征与深入性文本 O_det 进行对都。对都后的镶嵌默示通过多层感知机(MLP)投影为特殊的令牌镶嵌用于率领分割模子生成批改区域掩膜,用于率领分割模子生成批改区域掩膜 M_loc。
统统这个词经由如下:
其中,S_enc 和 S_dec 折柳为图像的编码器与解码器,Extract (⋅) 为索取镶嵌的操作,通过上述步调,MFLM 行使文本神情和图像特征的对都生成准确的二值掩膜。
此外,MFLM 使用了 LoRA 微调本事,对模子进行轻量化优化,提高了处理成果并镌汰了狡计本钱。与单一模态分割步调比拟,这种多模态交互的设想使得 MFLM 大概疏忽更加复杂的批改场景,如光照不一致、透视诞妄和对象拼接,从而权臣擢升批改区域的定位准确性。
实验截至咱们对 FakeShield 与多种 IFDL 步和洽多模态大说话模子(MLLM)在检测、深入和定位方面的性能进行了全面临比。为了确保截至的公说念性,统统 IFDL 步调均在与 FakeShield 交流的数据集上进行了进修和测试。
这一比较掩盖了 Photoshop、DeepFake 以及 AIGC 剪辑等多种批改场景,全面评估了各模子在多模态信息和会和复杂批改检测中的进展。
检测性能对比咱们与 MVSS-Net,CAT-Net 等其他先进的 IFDL 步调进行了检测性能的对比,截至如表 1 所示。实验截至标明,FakeShield 在 Photoshop、DeepFake 和 AIGC 剪辑等数据集上的检测准确率(ACC)和 F1 分数均权臣优于其他步调。通过引入域标签指示政策(domain-tag guidance),FakeShield 大概有用处理多种批改类型,增强跨范畴的泛化智商。
表 1:FakeShield 与主流 IFDL 步调的定位性能比较深入性能对比咱们通过与预进修的多模态大说话模子(M-LLMs)在 Photoshop、DeepFake 和 AIGC 剪辑数据集上的进展进行对比,评估了 FakeShield 的深入智商,截至如表 2 所示。
咱们接受余弦语义相通度(CSS)动作估计方针,FakeShield 在各项测试中均获取了最高分数,展现了其生成准确且详备批改区域神情的智商。这标明,FakeShield 大概在复杂的批改场景中生成与真确情况高度一致的深入性神情,大幅擢升了模子在检测经由中的可深入性与透明度。
表 2:FakeShield 与主畅达用 MLLM 步调的深入性能比较定位性能对比咱们通过与其他先进的 IFDL 步调在 Photoshop 和 AIGC 剪辑等数据集上的进展进行对比,评估了 FakeShield 在批改区域定位方面的智商,截至如表 3 所示。实验截至标明,FakeShield 在大无数测试齐集均获取了最高的 IoU 和 F1 分数。
表 3:FakeShield 与主流 IFDL 步调的定位性能比较另外,图 4 的主不雅截至对比也标明,FakeShield 大概生成更加明晰且精确的批改区域分割,准确捕捉范围,而其他步调如 PSCC-Net 则容易产生恶浊且过于泛泛的估计。
图 4:FakeShield 与主流 IFDL 步调的定位性能的定性比较参考贵府:
妈妈的朋友在线播放https://arxiv.org/abs/2410.02761
告白声明:文内含有的对外跳转联贯(包括不限于超联贯、二维码、口令等步地),用于传递更多信息,省俭甄选时刻av 巨乳,截至仅供参考,IT之家统统著作均包含本声明。