前言

从11月下旬开始7个大作业。。。一直在赶作业,一直赶,赶到差不多12月中旬才做完,之后一周一直在玩Stable Diffusioin,U1S1那个东西确实好玩,玩了快两周,也变相地学到了很多CV的知识,终于,在年末的前几天重新把论文捡了起来,我又开始看了。。。这次是在Copilot的帮助下,提高了筛选文献的效率,不用手工泛读了。

第一篇文献

文献名:ESVAE: An Efficient Spiking Variational Autoencoder with Reparameterizable Poisson Spiking Sampling

arxiv

解决的问题

针对直接套用VAE到SNN网络中出现的生成效果差问题,本文在VAE原文的基础上修改了FSVAE的Loss函数,提出了一种概率空间均方误差的损失函数,取得了较好的生成效果。

采用的方法

本文大体的方法按照VAE的一般逻辑,整体结构如下图所示:
整体结构
这里着重强调两点:

  1. 图像脉冲编码:一般逻辑是将强度图像按像素强度生成泊松过程簇的方法,本文使用的是文献FSVAE的编码器,后面来叙述;
  2. 损失函数:文献中给出的形式是:

L=Ezpp(zpx;rp)[logp(x^zp)]+λMMD2[p(rp),p(rq)]\mathcal{L}=E_{z_p\sim p(z_p|x;r_p)}[\log p(\hat{x}|z_p)]+\lambda \mathrm{MMD}^2[p(r_p),p(r_q)]

其中,zpz_p是先验概率空间下的隐变量,第一项求解的是图像重构损失;第二项求解的是先验概率空间下的隐变量的分布与后验概率空间下的隐变量的分布之间的距离,这里使用的是最大均值差异度MMD。式中的差异度又按下式定义:

MMD2[p(rp),q(rq)]=Erp,rpp(rp)[K(rp,rp)]+Erq,rqp(rq)[K(rq,rq)]2Erpp(rp),rqp(rq)[K(rp,rq)]\mathrm{MMD}^2[p(r_p),q(r_q)]=E_{r_p,r_p'\sim p(r_p)}[K(r_p,r_p')]+E_{r_q,r_q'\sim p(r_q)}[K(r_q,r_q')]-2E_{r_p\sim p(r_p),r_q'\sim p(r_q)}[K(r_p,r_q)]

式中的KK是径向基函数。

方法评价

本文献提出的方法改良的FSVAE提出方法的生成模糊问题,能够得到更多的细节,此外,本文的生成方法还能够在更高的噪声水平下得到稳健的结果。关于本文的问题我,目前由于不清楚其编码器fef_e的逻辑,不能评价。另外就是径向基函数,本文没有提供具体的形式,只能从代码上去推断一下了。

一个想法

随机过程确实能够对脉冲神经元的行为过程建模,是否可以尝试多了解一些这种类似的建模原理,努力地推导一个可行的SNN2ANN的转换算法,提高网络的性能呢?