您的位置: 首页> AI模型

CVPR 2026 | C²FG：用分数差异分析提高条件生成中CFG的引导

匿名上传

发布时间:2026-04-03 11:06:01

本文入选 CVPR 2026

CVPR（IEEE/CVF Conference on Computer Vision and Pattern Recognition）IEEE国际计算机视觉与模式识别会议，主要内容是计算机视觉与模式识别技术。

论文主页：arxiv.org/abs/2603.08…

一、为什么固定 CFG scale 不够好？

标准 CFG： ${\hat{ϵ}}_{ω} (x_{t}, t, y) = {\hat{ϵ}}_{\emptyset} (x_{t}, t) + ω ({\hat{ϵ}}_{c} (x_{t}, t, y) - {\hat{ϵ}}_{\emptyset} (x_{t}, t)) . hatepsilon_omega(x_t,t,y)=hatepsilon_{emptyset}(x_t,t)+omegabig(hatepsilon_{c}(x_t,t,y)-hatepsilon_{emptyset}(x_t,t)big).$ 常见做法使用固定 $ω omega$ ，但它默认“条件/无条件差异在所有时间步同等重要”。我们的理论与实证显示：这种差异在扩散时间上是动态变化的，因此固定 $ω omega$ 难以同时兼顾早期结构形成与后期精确对齐。

二、核心理论（VP-SDE 重点）：score discrepancy 的严格上界（论文 Theorem 1）

VP-SDE 前向扩散： $d x_{t} = - \frac{1}{2} β (t) x_{t} d t + \sqrt{β (t)} d w_{t} . dx_t=-frac{1}{2}beta(t)x_tdt+sqrt{beta(t)}dw_t.$

Theorem 1（VP-SDE Score MSE Bound）

假设样本空间有界且闭。令 $p (x, t) p(x,t)$ 与 $\tilde{p} (x, t) tilde p(x,t)$ 为由初始分布 $p (x_{0}) p(x_0)$ 与 $\tilde{p} (x_{0}) tilde p(x_0)$ 诱导的时刻 $t t$ 的密度（论文中取 $\tilde{p} (x, t) = p (x, t ∣ y) tilde p(x,t)=p(x,tmid y)$ ）。则 score 差异满足一致上界： $∣ \nabla \log p (x, t) - \nabla \log \tilde{p} (x, t) ∣ \leq \frac{α (t)}{σ^{2} (t)} C, \forall x \in s u p p, t \geq 0, |nablalog p(x,t)-nablalog tilde p(x,t)| le frac{alpha(t)}{sigma^2(t)}C,quad forall xin mathrm{supp}, tge 0,$ 其中 $C C$ 为常数， $α (t) = \exp (- \frac{1}{2} \int_{0}^{t} β_{s} d s), σ (t) = α (t) \sqrt{\int_{0}^{t} \frac{β_{s}}{α^{2} (s)} d s} . alpha(t)=expBig(-frac{1}{2}int_0^tbeta_sdsBig),quad sigma(t)=alpha(t)sqrt{int_0^tfrac{beta_s}{alpha^2(s)}ds}.$ 重参数化 $t^{'} = \frac{1}{2} \int_{0}^{t} β_{s} d s t'=frac{1}{2}int_0^tbeta_sds$ 后（论文式(9)）： $∣ \nabla \log p (x, t) - \nabla \log p (x, t ∣ y) ∣ \leq \frac{e^{- t}}{1 - e^{- 2 t}} C, |nablalog p(x,t)-nablalog p(x,tmid y)| le frac{e^{-t}}{1-e^{-2t}}C,$ 当 $t t$ 较大时呈现 $O (e^{- t}) O(e^{-t})$ 的指数衰减趋势。

结论： 在前向扩散中，条件/无条件分布会逐步“趋同”，其 score 差异上界随时间衰减；对应到反向采样，越接近数据（ $t \to 0 tto 0$ ）越需要更强、更精细的条件引导。

三、方法：C²FG（指数控制的 time-dependent CFG）

我们将固定 $ω omega$ 替换为时间控制函数： $ω (t) = ω_{0} \exp (λ (1 - \frac{t}{t_{\max}})) . omega(t)=omega_0expBig(lambdaBig(1-frac{t}{t_{max}}Big)Big).$ 并在采样时使用：

{\hat{ϵ}}_{c}^{ω} (x t) = \hat{ϵ} \emptyset (x t) + ω (t) [\hat{ϵ} c (x t) - \hat{ϵ} \emptyset (x_{t})] . hat{boldsymbol{epsilon}}_{boldsymbol{c}}^omegaleft(boldsymbol{x}tright)=hat{boldsymbol{epsilon}}{varnothing}left(boldsymbol{x}tright)+omega(t)left[hat{boldsymbol{epsilon}}{boldsymbol{c}}left(boldsymbol{x}tright)-hat{boldsymbol{epsilon}}{varnothing}left(boldsymbol{x}_tright)right] .

为什么这种形式好用？

与理论与观测一致： 差异呈指数趋势，调度函数自然对齐；
连续可导更稳定： 比分段/线性更平滑；
只需两个超参： $ω_{0} omega_0$ （最大强度）与 $λ lambda$ （衰减速率）；
training-free、plug-and-play： 无需额外训练或外部分类器。

四、实验结果展示

Figure 1：理论预测的“时间趋势”在真实模型中成立

(a) 条件与无条件 score 的 MSE 随时间变化，并被一个随 $t \to + \infty tto+infty$ 逼近 0 的函数上界约束；
(b) 余弦相似度在反向采样过程中下降，说明二者在幅值与方向上都逐渐分离。

Figure 2：CFG vs.C²FG 的采样流程比较

CFG： $ω omega$ 为常数；
C $^{2}^2$ FG： $ω (t) omega(t)$ 为随时间变化的衰减控制函数。

Figure 3：C²FG的直观示意（并解释 interval guidance 可视为特例/可融合）

论文指出：区间 guidance 的“只在有效区间用引导”可以在我们的框架下得到解释；同时C²FG+ interval可以进一步减少不必要的模型评估开销（把引导放在更“有效”的阶段）。

Figure 4：2D Toy Example（更少 outliers，更贴近目标条件分布）

(b) EDM2（ $ω = 1 omega=1$ ）出现 outliers；
(c） $β beta$ -CFG（ $α = β = 2, ω = 1 alpha=beta=2, omega=1$ ）outliers 更多；
(d) C $^{2}^2$ FG（ $ω_{0} = 1, λ = 0.6 omega_0=1, lambda=0.6$ ）outliers 更少，匹配目标更好。