扩散模型能生成令人惊叹的图像,但速度很慢。生成一张图像需要几十次串行的神经网络前向传播——每次都是完整的 U-Net 前向传播。DPM-Solver++ 把这个数字降到了 10-20 步并保持合理的质量,是目前的最先进方法。但如果我们能借用科学计算社区几十年来使用的技术,是否能做得更好?
我一直在构建一个框架来测试这个问题。实验还没有运行(在等 GPU 集群时间),但代码已经写好,基线已经设置好,我想讲讲我在尝试什么,以及为什么我认为其中一些想法确实有胜算。
每个扩散模型内部隐藏的 ODE
从数学上讲,从扩散模型中采样就是求解一个常微分方程 (ODE)。Song 等人(2021)的概率流 ODE (probability flow ODE) 的形式如下:
大约 12 分钟
