第一篇文献

MetaEarth: A Generative Foundation Model for Global-scale Remote Sensing Image Generation

解决的问题

本文是将扩散模型用于遥感领域的超分辨率解决方案,专门解决遥感图像领域数据集不足、下游任务训练难以拟合的问题。

主要内容

本文在DDPM的工作框架基础上,增加了两点修改方案以改善遥感图像生成所要求的连续性和有意义性质:

  1. 基于DDPM的扩散生成框架通常只对时间变量tt作编码embedding,本文将这一步扩展至对分辨率作编码;
  2. 为了保证生成的遥感图像在空间上连续,本文将前一位置生成的图像作为条件控制量,将其拆分为两部分(从左和从右),分别作图像生成,并根据相同部分拼接在一起,实现无缝图像生成;
    。其工作数据流如下所示:
    遥感图像生成
    本文主要使用了超分辨率的方法,其中值得注意的一点是,超分是先作一次上采样后加入高斯噪声作条件生成。超分前后,生成图像在像素级别上平滑。

文章仅使用了8块4090完成数据并行训练,共计训练2000GPU小时(约5天)。

方法评价

本文算是将扩散模型应用至遥感图像数据集生成的一次尝试,从无到有完成扩散模型的训练,取得了不错的生成效果。但是文章也仍然有较多的问题:第一,缺乏消融实验,尤其是对自己新增加的分辨率编码模块,尚未使用消融实验证实该模块的作用,而消融实验仅对分辨率生成中的条件引导项作实验,而显然该项是必不可少的;第二,文章事实上只是一个超分辨模型,专用于数据集生成,而不是对真实物理世界的超分辨率,文章题目和摘要在这里具有明显的歧义,展现出不专业。

第二篇文献

Improved Denoising Diffusion Probabilistic Models

解决的问题

本文是DDPM的早期改进版本,填补了Ho等人留下的关于DDPM方差不可学习的问题,进一步增强了扩散模型的泛化能力。关于该方差的学习方式,文章采用了巧妙的形式化技巧(类似于KAN的方法)来解决。

主要内容

DDPM原文中使用的噪声模型是椭球高斯分布,即定义为N(μ,σ2(βt)I)\mathcal{N}(\bm{\mu},\sigma^2(\beta_t)\mathbf{I}),本文将椭球高斯分布改为任意形式的高斯分布\mathcal{N}(\bm{\mu},\bm(\Simga)(\beta_t)),但是该形式过于自由,学习模型无法收敛。由此本文将该学习的形式修改为:

Σθ(xt,t)=exp[vlogβt+(1v)logβ~t] with β~t=1αˉt11αˉtβt\bm{\Sigma}_\theta(x_t,t)=\exp[\mathbf{v}\log\beta_t+(1-\mathbf{v})\log\tilde{\beta}_t]\text{ with }\tilde{\beta}_t=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t}\beta_t

其中,v\mathbf{v}是维度等于图像维度的列向量。文章没有明确说明,推测该向量应该会变成对角矩阵的对角线。计算该方差量训练时,作者在原始损失函数Lsimple=ϵtϵθ(xt,t)L_\mathrm{simple}=\|\bm{\epsilon}_t-\bm{\epsilon_\theta}(\mathbf{x}_t,t)加上变分下界variation lower bound正则项λLvlb\lambda L_\mathrm{vlb}

Lvlb=Etpt[Ltpt]L_\mathrm{vlb}=\mathbb{E}_{t\sim p_t}\left[\frac{L_t}{p_t}\right]

其中,ptE[Lt2]p_t\propto\sqrt{\mathbb{E}[L_t^2]}是理论上各个时间戳处损失的期望值,实际上不能实现,因此作者采用了滑动窗口法0,...,90,...,9近似计算,用均方值作加权值求解期望即可。

方法评价

本文改进了DDPM方差不能学习的问题,增强了扩散模型的泛化能力。在实际应用中,该方法带来的增益在小数据集样本上表现不明显。

第三篇文献