本文入选 CVPR 2026

CVPR(IEEE/CVF Conference on Computer Vision and Pattern Recognition)IEEE国际计算机视觉与模式识别会议,主要内容是计算机视觉与模式识别技术。

论文主页:arxiv.org/abs/2603.08…

一、为什么固定 CFG scale 不够好?

标准 CFG: ϵ^ω(xt,t,y)=ϵ^(xt,t)+ω(ϵ^c(xt,t,y)ϵ^(xt,t)).hatepsilon_omega(x_t,t,y)=hatepsilon_{emptyset}(x_t,t)+omegabig(hatepsilon_{c}(x_t,t,y)-hatepsilon_{emptyset}(x_t,t)big). 常见做法使用固定 ωomega,但它默认“条件/无条件差异在所有时间步同等重要”。我们的理论与实证显示:这种差异在扩散时间上是动态变化的,因此固定 ωomega 难以同时兼顾早期结构形成与后期精确对齐。

二、核心理论(VP-SDE 重点):score discrepancy 的严格上界(论文 Theorem 1)

VP-SDE 前向扩散: dxt=12β(t)xtdt+β(t)dwt.dx_t=-frac{1}{2}beta(t)x_tdt+sqrt{beta(t)}dw_t.

Theorem 1(VP-SDE Score MSE Bound)

假设样本空间有界且闭。令 p(x,t)p(x,t)p~(x,t)tilde p(x,t) 为由初始分布 p(x0)p(x_0)p~(x0)tilde p(x_0) 诱导的时刻 tt 的密度(论文中取 p~(x,t)=p(x,ty)tilde p(x,t)=p(x,tmid y))。则 score 差异满足一致上界: logp(x,t)logp~(x,t)α(t)σ2(t)C,xsupp, t0,|nablalog p(x,t)-nablalog tilde p(x,t)| le frac{alpha(t)}{sigma^2(t)}C,quad forall xin mathrm{supp}, tge 0, 其中 CC 为常数, α(t)=exp(120tβsds),σ(t)=α(t)0tβsα2(s)ds.alpha(t)=expBig(-frac{1}{2}int_0^tbeta_sdsBig),quad sigma(t)=alpha(t)sqrt{int_0^tfrac{beta_s}{alpha^2(s)}ds}. 重参数化 t=120tβsdst'=frac{1}{2}int_0^tbeta_sds 后(论文式(9)): logp(x,t)logp(x,ty)et1e2tC,|nablalog p(x,t)-nablalog p(x,tmid y)| le frac{e^{-t}}{1-e^{-2t}}C,tt 较大时呈现 O(et)O(e^{-t}) 的指数衰减趋势。

结论: 在前向扩散中,条件/无条件分布会逐步“趋同”,其 score 差异上界随时间衰减;对应到反向采样,越接近数据(t0tto 0)越需要更强、更精细的条件引导。

三、方法:C²FG(指数控制的 time-dependent CFG)

我们将固定 ωomega 替换为时间控制函数: ω(t)=ω0exp(λ(1ttmax)).omega(t)=omega_0expBig(lambdaBig(1-frac{t}{t_{max}}Big)Big). 并在采样时使用:

ϵ^cω(xt)=ϵ^(xt)+ω(t)[ϵ^c(xt)ϵ^(xt)].hat{boldsymbol{epsilon}}_{boldsymbol{c}}^omegaleft(boldsymbol{x}tright)=hat{boldsymbol{epsilon}}{varnothing}left(boldsymbol{x}tright)+omega(t)left[hat{boldsymbol{epsilon}}{boldsymbol{c}}left(boldsymbol{x}tright)-hat{boldsymbol{epsilon}}{varnothing}left(boldsymbol{x}_tright)right] .

为什么这种形式好用?

  • 与理论与观测一致: 差异呈指数趋势,调度函数自然对齐;
  • 连续可导更稳定: 比分段/线性更平滑;
  • 只需两个超参: ω0omega_0(最大强度)与 λlambda(衰减速率);
  • training-free、plug-and-play: 无需额外训练或外部分类器。

四、实验结果展示

Figure 1:理论预测的“时间趋势”在真实模型中成立

  • (a) 条件与无条件 score 的 MSE 随时间变化,并被一个随 t+tto+infty 逼近 0 的函数上界约束;
  • (b) 余弦相似度在反向采样过程中下降,说明二者在幅值与方向上都逐渐分离。

Figure 2:CFG vs.C²FG 的采样流程比较

  • CFG:ωomega 为常数;
  • C2^2FG:ω(t)omega(t) 为随时间变化的衰减控制函数。

Figure 3:C²FG的直观示意(并解释 interval guidance 可视为特例/可融合)

论文指出:区间 guidance 的“只在有效区间用引导”可以在我们的框架下得到解释;同时C²FG+ interval可以进一步减少不必要的模型评估开销(把引导放在更“有效”的阶段)。

Figure 4:2D Toy Example(更少 outliers,更贴近目标条件分布)

  • (b) EDM2(ω=1omega=1)出现 outliers;
  • (c) βbeta-CFG(α=β=2, ω=1alpha=beta=2, omega=1)outliers 更多;
  • (d) C2^2FG(ω0=1, λ=0.6omega_0=1, lambda=0.6)outliers 更少,匹配目标更好。

Figure 5:ImageNet 质化对比(纹理更清晰、畸变更少)

红框示例显示C²FG 能有效缓解失真与纹理模糊;在不同采样器与步数下都能保持一致改进。

ImageNet Class-Conditional(多架构、多分辨率、多采样器综合评估)

DiT-XL/2 (256×256, ODE)

  • baseline:FID 2.29,IS 276.8
  • C²FG(ω0=1, λ=ln2):FID 2.07,IS 291.5

SiT-XL/2 (REPA, 256×256, SDE)(强基线也能继续提升)

  • baseline:FID 1.80,IS 284.0
  • C²FG(ω0=1, λ=1):FID 1.51,IS 315.0

SiT-XL/2 (REPA, 256×256, SDE)(强基线也能继续提升)

  • interval baseline:FID 1.42,IS 305.7
  • interval +C²FG:FID 1.41,IS 308.0

DiT-XL/2 (512×512, SDE, 100 steps)

  • baseline:FID 6.81,IS 229.5
  • C²FG:FID 6.54,IS 280.9

引用:

C²FG:Control Classifier-Free Guidance via Score Discrepancy Analysis, CVPR 2026.

本站提供的所有下载资源均来自互联网,仅提供学习交流使用,版权归原作者所有。如需商业使用,请联系原作者获得授权。 如您发现有涉嫌侵权的内容,请联系我们 邮箱:alixiixcom@163.com