Graduation Defense · Network Security

XXU · 01 / 16

DEEPFAKE DETECTION · CROSS-DOMAIN GENERALIZATION

跨域泛化下
轻量级 Deepfake
检测方法研究

面向真实场景的数据分布漂移，用 RGB、DCT 与 SRM 三类取证线索提升检测稳定性。

XXX · XXX · XXX

10 MIN · STYLE B

Context · Why it matters

02 / 16

RESEARCH BACKGROUND

Deepfake 让数字可信面临挑战

DIGITAL TRUST

问题不只是
图像分类

伪造内容会削弱身份可信、内容可信与证据可信。

01

身份可信

远程身份认证、刷脸登录和实名场景可能被伪造人脸欺骗。

02

内容可信

公众人物言论伪造、虚假信息传播会影响公共舆论判断。

03

证据可信

司法取证、媒体审核和平台治理需要自动化检测工具辅助判断。

Problem · Domain Shift

03 / 16

KEY QUESTION

域内高分不等于真实场景可靠

IN familiar distribution

域内测试

训练集与测试集来自相近分布，例如 FaceForensics++ c23 内部划分。

纹理、压缩、背景规律较一致
模型更容易取得高分
不能直接代表真实部署表现

OUT unseen target domains

跨域测试

源域训练后直接迁移到 Celeb-DF、DFDC、DFDCP、UADFV 等目标域。

伪造算法与采集设备变化
压缩、身份、场景和后处理不同
更接近真实应用的不确定性

Motivation · Forensic clues

04 / 16

FROM RGB TO THREE CLUES

RGB 单流不足，需要三类取证线索

RGB · Texture

DCT · Frequency

SRM · Residual

RGB

空间纹理

皮肤纹理、五官边缘、光照协调与融合区域。

DCT

频域伪影

高频能量、频谱异常与上采样痕迹。

SRM

噪声残差

噪声不一致、边界不连续与压缩残差。

THESIS

伪造痕迹不只存在于可见纹理中，频域统计与噪声残差共同构成更完整的取证证据。

Method · Overall Framework

05 / 16

TriStreamDFD
三流并行

同源输入、异构变换、同构对齐、自适应融合：同一张人脸图像从三种取证视角提取证据。

RGB

Texture

可见空间纹理与语义内容。

DCT

Freq.

块状频域系数与高频异常。

SRM

Residual

高通噪声残差与边界痕迹。

Method · Three Branches

06 / 16

BRANCH DESIGN

三路分支分别看什么

01 · RGB BRANCH

02 · DCT BRANCH

03 · SRM BRANCH

空间纹理

EfficientNet-B0 提取皮肤纹理、边缘和融合区域等可见线索。

频域伪影

8×8 块 DCT 显式建模频谱异常和生成痕迹。

噪声残差

SRM 高通滤波削弱语义内容，突出取证残差信号。

Method · Fusion Module

07 / 16

GCMA
自适应融合

以 RGB token 为 Query，分别读取 DCT 与 SRM 补充信息，再用门控权重融合三路证据。

STEP 01

Cross

RGB 与辅助模态进行跨注意力交互。

STEP 02

Gate

样本级确定三路贡献比例。

ADAPT

Weight

门控权重刻画样本级模态贡献，用于呈现融合策略的自适应变化。

Experiment · Protocol

08 / 16

DATASETS & SETTINGS

六个公开数据集与跨域评测协议

DATASETS

6

TARGETS

5

METRIC

AUC

训练源域以 FaceForensics++ 为主，目标域包括 Celeb-DF v1/v2、DFDC、DFDCP 与 UADFV，采用零样本跨域评测。

SIZE

输入 256×256

BACKBONE

EfficientNet-B0

OPTIM

AdamW · 3×10⁻⁴

SEED

42 · RTX 4080

Results · Core Evidence

09 / 16

MAIN RESULTS

域内有效，跨域更稳定

IN-DOMAIN TABLE

CROSS-DOMAIN TABLE

AUC COMPARISON

FF++ C23 AUC

96.52%

域内测试取得较高检测性能。

AVG TARGET AUC

67.77%

跨域目标域平均表现提升，体现三流互补的泛化收益。

IN-DOMAIN ACC / F1

92.92 / 95.76

Acc 与 F1 作为补充指标。

Results · Fine-grained & Efficiency

10 / 16

细粒度表现
与轻量化结果

除不同伪造方法下的表现外，模型保持较低参数量与计算量，适合进一步走向轻量部署。

PARAMS

7.76M

轻量参数规模。

MACS

0.95G

较低计算预算。

LATENCY

6ms

单帧推理时间约值。

Analysis · Robustness

11 / 16

ROBUSTNESS

退化条件下仍有可用性，但对噪声敏感

ROBUSTNESS TABLE

AUC CHANGE

颜色抖动较稳定

颜色扰动下仍能保持相对稳定的检测表现。

模糊 / JPEG 仍可用

常见平台退化不会让模型完全失效。

加性噪声敏感

高频与残差信号仍会受噪声扰动影响。

Analysis · Ablation & Gate

12 / 16

WHY IT WORKS

三流和门控都在发挥作用

LOSS CURVE

GATE TABLE

GATE CHART

模态消融

完整三流模型优于单流和双流配置，说明 DCT 与 SRM 提供补充信息。

损失约束

中心一致性与门控熵正则用于提升特征和融合稳定性。

门控分析

不同目标域的权重分布反映模型对 RGB、DCT、SRM 证据强度的自适应调节。

Backup · Visual Evidence

13 / 16

BACKUP VISUALIZATION

三类取证线索可视化证据

RGB TEXTURE

DCT SPECTRUM

SRM RESIDUAL

看得见

RGB 提供语义与纹理。

看频率

DCT 捕捉频谱异常。

看残差

SRM 突出噪声不一致。

Summary · Five numbers

14 / 16

DATA TAKEAWAY

数据总结：有效性、泛化与轻量化

AVG CROSS-DOMAIN AUC

67.77%

五个目标域平均 AUC，验证三流取证证据对跨域泛化的贡献。

IN-DOMAIN

96.52%

FF++ c23 域内 AUC

ACCURACY / F1

92.92 / 95.76

域内补充指标

PARAMETERS

7.76M

轻量级三流网络规模

COMPUTE / LATENCY

0.95G · 6ms

较低计算预算与单帧推理开销

Limitations · Future Work

15 / 16

BOUNDARIES

局限与展望

— 01 / GAP

复杂真实域仍有提升空间

跨域 AUC 提升不等于真实场景完全可靠。

— 02 / TEMPORAL

当前主要基于单帧检测

尚未充分利用视频级时序一致性。

— 03 / NOISE

对加性噪声较敏感

后续需要抗噪训练和真实平台退化建模。

— 04 / NEXT

扩展到视频与扩散模型痕迹

视频时序建模、抗扰动与可解释报告生成。

16 / 16

Q&A

THANK YOU

谢谢各位老师
批评指正

本文尝试在轻量计算预算下，让检测模型不只依赖表面纹理，而是融合频域与噪声残差取证证据。

XXX

TAKEAWAYS

03 POINTS

01
三流互补
RGB、DCT、SRM 从不同取证视角观察同一输入。
02
自适应融合
GCMA 用跨注意力和门控权重融合三路证据。
03
克制结论
跨域稳定性有所提升，但复杂真实场景仍需继续研究。

→ END · QUESTIONS

跨域泛化下轻量级 Deepfake检测方法研究