卷！MIT泊松流生成模型击败扩散模型，兼顾质量与速度

生活百科17小时前发布星尘导航

1 0 0

方法概览

注意到上述的过程将 N 维数据嵌入到了在 N+1 维（多了 z 维度）的空间中。为了方便区分，研究人员把 N 维数据和 N+1 维用 x 和

表示。为了得到上述的高维电场线，需要解如下的泊松方程：

其中

是位于 z=0 平面上想要生成的数据分布；

是势函数，也就是研究人员求解的目标。由于只需要知道电场线的方向，研究人员推导出了电场线的梯度（势函数的梯度）的解析形式：

电场线的轨迹（见图二）能够被下面的 ODE 所描述：

在下面的定理中，研究人员证明了上述 ODE 定义了一个高维半球面上的均匀分布和 z=0 平面上的数据分布的双射。这个结论与图一、图二的直观相同：可以通过电场线来还原数据分布。

PFGM 的训练

给定一个从数据分布中采样得到数据集

，研究人员用该数据集所对应的电场线梯度，来近似数据分布所对应的电场线梯度：

该电场线梯度是学习目标。该研究通过函数在空间中进行选点，并且平方损失函数让神经网络

去学习空间中归一化的电场线梯度

, 具体算法如下：

PFGM 的采样

当学习完归一化去学习空间中归一化的电场线梯度

后，可以通过如下的 ODE 对数据分布进行采样：

该 ODE 通过减小 z，使得样本从大球面沿着电场线逐渐运动到 z=0 平面。此外，该研究提出了将大球面上的均匀分布投影到某个 z 平面以方便 ODE 模拟，并进一步通过变量替换来进一步加速采样。具体步骤请参见文章的 3.3 节。

实验结果

在表一中，该研究使用标准数据集 CIFAR-10 来评估不同模型。在该数据集上，PFGM 是表现最好的可逆标准化流模型，取得了 2.35 的 FID score。在使用相同的网络结构 (DDPM++/DDPM++ deep) 的条件下，PFGM 的表现优于扩散模型。研究人员同时观测到，在与扩散模型的 SDE （随机微分方程）生成质量差不多的情况下，PFGM 达到了 10 倍 – 20 倍的加速，更好地兼顾了生成质量与速度。此外，研究人员发现 PFGM 在表达能力更弱的网络结构上比扩散模型鲁棒，并且在更高维的数据集上依然优于同等条件下的扩散模型。具体请见文章的实验章节。在图三中，该研究可视化了 PFGM 生成图片的过程。

表一：CIFAR-10 数据上的样本质量（FID, ）与采样步数 (NFE)

图三：PFGM 在 CIFAR-10, 64×64, LSUN 上的采样过程

结论

该研究提出了一个基于泊松方程的生成模型 PFGM。这个模型预测 N+1 维的扩展空间中的归一化电场线梯度，并通过电场线对应的 ODE 来采样。实验中，该研究的模型是当前最好的标准化流模型，并在相同的网络结构上取得了比扩散模型更好的生成效果与更快的采样速度。PFGM 的采样过程对噪声更鲁棒，也能扩展到更高维的数据集中。研究人员期望 PFGM 能够在其他应用领域中也能取得亮眼表现，比如分子生成和 3D 数据生成。