← → 翻页 · B 静态 · ESC 索引
Graduation Defense · Network Security
XXU · 01 / 16
DEEPFAKE DETECTION · CROSS-DOMAIN GENERALIZATION

跨域泛化下
轻量级 Deepfake
检测方法研究

面向真实场景的数据分布漂移,用 RGB、DCT 与 SRM 三类取证线索提升检测稳定性。
XXX · XXX · XXX
10 MIN · STYLE B
Context · Why it matters
02 / 16
RESEARCH BACKGROUND

Deepfake 让数字可信面临挑战

DIGITAL TRUST
问题不只是
图像分类

伪造内容会削弱身份可信、内容可信与证据可信。

01
身份可信

远程身份认证、刷脸登录和实名场景可能被伪造人脸欺骗。

02
内容可信

公众人物言论伪造、虚假信息传播会影响公共舆论判断。

03
证据可信

司法取证、媒体审核和平台治理需要自动化检测工具辅助判断。

Problem · Domain Shift
03 / 16
KEY QUESTION

域内高分不等于真实场景可靠

IN familiar distribution
域内测试

训练集与测试集来自相近分布,例如 FaceForensics++ c23 内部划分。

  • 纹理、压缩、背景规律较一致
  • 模型更容易取得高分
  • 不能直接代表真实部署表现
OUT unseen target domains
跨域测试

源域训练后直接迁移到 Celeb-DF、DFDC、DFDCP、UADFV 等目标域。

  • 伪造算法与采集设备变化
  • 压缩、身份、场景和后处理不同
  • 更接近真实应用的不确定性
Motivation · Forensic clues
04 / 16
FROM RGB TO THREE CLUES

RGB 单流不足,需要三类取证线索

RGB · Texture
RGB 真实与伪造样本对比
DCT · Frequency
真实与伪造样本的 DCT 频谱差异
SRM · Residual
真实与伪造样本的 SRM 高通残差
RGB
空间纹理

皮肤纹理、五官边缘、光照协调与融合区域。

DCT
频域伪影

高频能量、频谱异常与上采样痕迹。

SRM
噪声残差

噪声不一致、边界不连续与压缩残差。

THESIS
伪造痕迹不只存在于可见纹理中,频域统计与噪声残差共同构成更完整的取证证据。
TriStreamDFD 总体框架
Method · Overall Framework
05 / 16
TriStreamDFD
三流并行
同源输入、异构变换、同构对齐、自适应融合:同一张人脸图像从三种取证视角提取证据。
RGB
Texture

可见空间纹理与语义内容。

DCT
Freq.

块状频域系数与高频异常。

SRM
Residual

高通噪声残差与边界痕迹。

Method · Three Branches
06 / 16
BRANCH DESIGN

三路分支分别看什么

01 · RGB BRANCH
RGB 空间纹理分支
02 · DCT BRANCH
DCT 频域伪影分支
03 · SRM BRANCH
SRM 噪声残差分支
空间纹理

EfficientNet-B0 提取皮肤纹理、边缘和融合区域等可见线索。

频域伪影

8×8 块 DCT 显式建模频谱异常和生成痕迹。

噪声残差

SRM 高通滤波削弱语义内容,突出取证残差信号。

GCMA 门控跨模态注意力融合模块
Method · Fusion Module
07 / 16
GCMA
自适应融合
以 RGB token 为 Query,分别读取 DCT 与 SRM 补充信息,再用门控权重融合三路证据。
STEP 01
Cross

RGB 与辅助模态进行跨注意力交互。

STEP 02
Gate

样本级确定三路贡献比例。

ADAPT
Weight

门控权重刻画样本级模态贡献,用于呈现融合策略的自适应变化。

Experiment · Protocol
08 / 16
DATASETS & SETTINGS

六个公开数据集与跨域评测协议

DATASETS
6
TARGETS
5
METRIC
AUC
六个公开 Deepfake 数据集统计表

训练源域以 FaceForensics++ 为主,目标域包括 Celeb-DF v1/v2、DFDC、DFDCP 与 UADFV,采用零样本跨域评测。

六个数据集代表帧示例
SIZE

输入 256×256

BACKBONE

EfficientNet-B0

OPTIM

AdamW · 3×10⁻⁴

SEED

42 · RTX 4080

Results · Core Evidence
09 / 16
MAIN RESULTS

域内有效,跨域更稳定

IN-DOMAIN TABLE
域内对比实验结果表
CROSS-DOMAIN TABLE
跨域零样本 AUC 结果表
AUC COMPARISON
跨域平均 AUC 对比柱状图
FF++ C23 AUC
96.52%

域内测试取得较高检测性能。

AVG TARGET AUC
67.77%

跨域目标域平均表现提升,体现三流互补的泛化收益。

IN-DOMAIN ACC / F1
92.92 / 95.76

Acc 与 F1 作为补充指标。

FF++ 五种伪造方法逐类准确率
Results · Fine-grained & Efficiency
10 / 16
细粒度表现
与轻量化结果
除不同伪造方法下的表现外,模型保持较低参数量与计算量,适合进一步走向轻量部署。
PARAMS
7.76M

轻量参数规模。

MACS
0.95G

较低计算预算。

LATENCY
6ms

单帧推理时间约值。

Analysis · Robustness
11 / 16
ROBUSTNESS

退化条件下仍有可用性,但对噪声敏感

ROBUSTNESS TABLE
五种退化条件下鲁棒性 AUC 表
AUC CHANGE
退化条件下 AUC 变化柱状图
颜色抖动较稳定

颜色扰动下仍能保持相对稳定的检测表现。

模糊 / JPEG 仍可用

常见平台退化不会让模型完全失效。

加性噪声敏感

高频与残差信号仍会受噪声扰动影响。

Analysis · Ablation & Gate
12 / 16
WHY IT WORKS

三流和门控都在发挥作用

LOSS CURVE
四种消融配置训练损失曲线
GATE TABLE
不同目标域门控权重分布表
GATE CHART
跨域目标域门控权重对比柱状图
模态消融

完整三流模型优于单流和双流配置,说明 DCT 与 SRM 提供补充信息。

损失约束

中心一致性与门控熵正则用于提升特征和融合稳定性。

门控分析

不同目标域的权重分布反映模型对 RGB、DCT、SRM 证据强度的自适应调节。

Backup · Visual Evidence
13 / 16
BACKUP VISUALIZATION

三类取证线索可视化证据

RGB TEXTURE
RGB 真实与伪造样本对比
DCT SPECTRUM
DCT 频谱可视化
SRM RESIDUAL
SRM 残差可视化
看得见

RGB 提供语义与纹理。

看频率

DCT 捕捉频谱异常。

看残差

SRM 突出噪声不一致。

Summary · Five numbers
14 / 16
DATA TAKEAWAY

数据总结:有效性、泛化与轻量化

AVG CROSS-DOMAIN AUC
67.77%

五个目标域平均 AUC,验证三流取证证据对跨域泛化的贡献。

IN-DOMAIN
96.52%

FF++ c23 域内 AUC

ACCURACY / F1
92.92 / 95.76

域内补充指标

PARAMETERS
7.76M

轻量级三流网络规模

COMPUTE / LATENCY
0.95G · 6ms

较低计算预算与单帧推理开销

Limitations · Future Work
15 / 16
BOUNDARIES

局限与展望

— 01 / GAP
复杂真实域仍有提升空间

跨域 AUC 提升不等于真实场景完全可靠。

— 02 / TEMPORAL
当前主要基于单帧检测

尚未充分利用视频级时序一致性。

— 03 / NOISE
对加性噪声较敏感

后续需要抗噪训练和真实平台退化建模。

— 04 / NEXT
扩展到视频与扩散模型痕迹

视频时序建模、抗扰动与可解释报告生成。

16 / 16
Q&A
THANK YOU

谢谢各位老师
批评指正

本文尝试在轻量计算预算下,让检测模型不只依赖表面纹理,而是融合频域与噪声残差取证证据。
XXX
XXX
TAKEAWAYS
03 POINTS
  • 01

    三流互补

    RGB、DCT、SRM 从不同取证视角观察同一输入。

  • 02

    自适应融合

    GCMA 用跨注意力和门控权重融合三路证据。

  • 03

    克制结论

    跨域稳定性有所提升,但复杂真实场景仍需继续研究。

→ END · QUESTIONS