第一篇文献

Retinomorphic Object Detection in Asynchronous Visual Streams

解决的问题

来自北京大学黄铁军团队的应用成果,首创性地提出了基于事件相机和脉冲相机的联合高速检测框架,在仿生学、高速物体检测上有着良好的应用效果。

主要内容

本文认为事件相机可以类比眼球中的周围神经元,对光照的变化较为敏感;而脉冲相机可以类比眼球中的中央凹神经元,具有较高 的空间分辨率,同时 也具有一定程度 的时间分辨率。由于事件流和脉冲流都是离散异步的数据格式,不同于图像作为一个连续的整体,给定一个对异步数据流的划分S={SX1,SX2,,SXN},X={Spike,Event}\mathcal{S}=\{S^1_X,S^2_X,\cdots, S^N_X\}, X=\{\mathrm{Spike}, \mathrm{Event}\},对应地有一个响应目标划分B={B1,B2,,BN}\mathcal{B}=\{B^1,B^2,\cdots, B^N\},其中BNB^N包括了对应划分块中的目标物体类别、检测框的四个坐标等信息,因此本文定义的“检测”任务是指找到一个映射函数D\mathcal{D},使得D(S)B\mathcal{D(S)\approx B}

本文选用的事件描述是事件张量,经一层全连接层感知处理后得到 事件特征;而对于脉冲流,则采用了先重建-后对齐的方式,首先得到重建纹理图像,然后与事件流时间 轴对应,即得到重建纹理F1i2F_1^{i-2}。然后在两个并行的处理通道中,分别加入转置乘积、ViT注意力机制和残差连接,得到提取压缩后的两通道特征图。最后,将两个通道的特征图输入至动态融合单元中,在离散约束条件下产生检测图像输出,整体的框架如下图所示:
基于脉冲流和事件流的联合检测框架

其中需要说明的一步操作是,本文在动态特征融合单元上,使用了通道交换的方法。据论文所述,该方法实际上是将对应通道处理后产生的中间特征图在批归一化过程中共享批归一化参数,逐层统一批归一化,保证两个通道得到的处理结果服从相同的分布特性。消融实验表明,共享批归一化参数带来的结果比直接平均、直接连接乃至NMS等传统方法都具有优势,这无疑是本文所能提供的最有效的创新方法。

内容评价

本文的最大创新在于融合模块。通道交换概念的提出,确实在实验效果上战胜了基于算术操作的融合方法(如直接相加、直接连接或者非极大抑制等手段),与清华戴琼海院士的Unet插帧操作相比,二者有类似之处,都是在特征图上作融合,而且是多次融合操作,更能有效的把两个模态的信息融为一体。但是本文的方法也有其前提,即两个方法的特征图必须在维度上完全一致,且语义上也必须是指向的是同一个使用场景,这样批归一化在数据概念上才有其意义。

如何将这个受到较大限制的批归一化交换通道方法推广?我认为这个是可以改进、创新的地方。

第二篇文献

Squeeze-and-Excitation Networks

解决的问题

著名的压缩释放网络,我原以为是像瓶颈层那样增强网络模型的拟合能力的,实际上是一种类似于注意力机制的增强模型的描述提取能力的方法。该方法完全可分离,不需要引入额外的连接环节,可直接处理于特征图中,解决了当时特征图中经过多次卷积操作后,信息丢失的问题。

主要内容

模块的结构如下图所示:
SE块的结构

原理较为简单,只对通道作运算。即对于输入的多通道特征图,直接对每一个通道作一次全局平均池化,产生多通道的1×1×C1\times 1\times C池化向量,该向量经过两个全连接层处理并激活后,使用Sigmoid函数输出为权重向量,然后将该权重向量与原始特征图按通道相乘,产生增强后的特征图。

作者指出,压缩环节相当于将特征图的全局信息这里指的是各个通道上的信息相关性施加至单通道的权重向量上,而释放环节则是类似残差块连接的方法,不减少输入的信息量。

本文提出的方法其实与通道注意力机制很像

通道注意力机制的结构如下图:
通道注意力机制
采用的方法与本文其实如出一辙,只是多了一个最大池化的通道,然后将两个通道融合在一起后再与原始输入的特征图相乘而已,本质上是完全一样的(从arxiv上来看CBAM这篇文献还似乎更早一点)。

内容评价

本文的方法与通道注意力机制完全 一样,二者均是采用了对特征图的直接池化得到压缩后的权重向量,然后修正特征图。这样提出的模块很轻量,极方便与大型网络融合在一起,其考虑了将不同通道处的信息关联在一起,与空间维度的注意力机制相比,是从另一个维度得到的特征图优化。

第三篇文献

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

解决的问题

R-CNN系列的检测模型的主要问题是:速度太慢了,且主要的速度瓶颈存在于区域提取上,本文借鉴了注意力机制的方法,对Fast R-CNN论文的模型再做改进,提高了模型检测的速度。

主要内容

本文将R-CNN系列模型的区域提取部分单独改进为一个全卷积模型网络,其接受输入图像后输出一些区域提取结果的集合,使用的方法是在特征图上的滑动窗口,其主要的步骤如下所示:

  1. 使用VGG网络处理输入图像,得到待检测的特征图。
  2. 在特征图上选择n×nn\times n的滑动窗口,使用双通道的全连接层处理窗口内的特征点,产生在该滑动窗口上的锚点值(包含物体的类别和位置信息)。
    以上两个过程可以使用下图表示:
    Faster R-CNN的RPN网络
    其中kk指的是锚点的个数,类别信息包含是否是物体的概率,以及是哪一类物体的概率,因此占有2k2k的输出维度。位置信息则是曲型的方框四个坐标。 为了处理得到了每一个锚点值,作者专门讨论了锚点的尺度不变问题和多尺度锚点回归计算。其中的锚点不变可以类比为Fast R-CNN文献中的RoI区域投影,保证对图像的检测框在特征图中仍然适用。而多尺度的锚点回归则是对锚点作堆叠,将尺度的自适应能力放在锚点上,而不需要 对图像或者特征图作其他 的运算,作者认为这样的方法更加节省计算。
  3. 训练过程中,作者使用了一种叫做“交换训练”的方法,即将RPN首先训练,得到位置提取后直接用于训练Fast R-CNN,然后把Fast R-CNN得到的训练模型权重当作RPN的初始值再训练RPN,如此循环(因为RPN和Fast R-CNN共享相同的权重值)。

内容评价

本文的最主要贡献是将Fast R-CNN的位置提取部分单独使用VGG卷积网络实现,并专门提出了一个迭代式的训练方法,能够想到通过迭代的途径增强模型的训练效果,已经 很不容易了,虽然这样直接迭代的方法肯定比不上GAN的对抗迭代。本文也算是Fast R-CNN的早期改进,进一步提出的RPN也基本摆脱了手工标注的影子,可以改进的空间是,仍然需要对检测的锚点有金字塔堆叠,模型本身不具有多尺度自适应的能力,需要手工编写不同尺度的接口完成处理。

第四篇文献

A MAP-Based Algorithm for Destriping and Inpainting of Remotely Sensed Images

解决的问题

这篇文献历史比较悠久了,是2009年的遥感科学顶刊,采用的方法与后来者的基于MAPMaximum a Posterior相关的深度学习网络是完全一致的,具有高度的前瞻性,本文的处理方法对于现在的遥感图像去条纹和插补仍然有参考意义。

主要内容

本文的主要贡献有二:一是提出了基于MAP的图像重建优化函数,二是提出了基于迭代法的最大后验概率优化算法,在没有提出ADAM和深度学习的时代,这些方法具有显著的意义。

优化函数

本文主要提出了一个目标函数,即最大后验概率,文章认为,遥感图像上的噪声和死区均可以看作是在理想图像上的加性和乘性操作累计结果,如设理想图像为z\mathbf{z},退化图像为g\mathbf{g},则二者之间满足的逐点计算关系为:

g=Az+B+n\mathbf{g=A\odot z+B+n }

其中A\mathbf{A}是成像模型在各个像素位置处的增益,B\mathbf{B}是成像模型在各个像素位置处的偏置量,n\mathbf{n}是噪声,\odot表示逐点乘法。本文待优化的目标函数是:

z^=arg maxzp(zg)=arg maxzp(gz)p(z)\hat{\mathbf{z}}=\argmax\limits_\mathbf{z} p(\mathbf{z|g})=\argmax\limits_\mathbf{z} p(\mathbf{g|z})p(\mathbf{z})

这里直接省去了贝叶斯公式的退化图像概率项,因为它是一个常数,就没有必要计算了。为了方便后续的概率函数计算,文中再对上式取对数,得到:

z^=arg maxzlogp(gz)+logp(z)\hat{\mathbf{z}}=\argmax\limits_\mathbf{z} \log p(\mathbf{g|z})+\log p(\mathbf{z})

优化函数分为两项,一项是图像的先验概率,文中直接假设先验概率服从高斯分布,在先验噪声分布协方差矩阵的情况下,直接得到:

p(z)=1M1exp{12Q(gAzB)2}p(\mathbf{z})=\frac{1}{M_1}\exp\left\{-\frac{1}{2}\left|\left|\mathbf{Q\odot(g-A\odot z-B)}\right|\right|^2\right\}

这里的Q\mathbf{Q}就是先验噪声分布协方差矩阵。另一项是图像的似然概率,在文中采用的是Gauss-Markov先验模型,即:

p(z)=1M2exp{12λx,ycρ[dc(zx,y)]}p(\mathbf{z})=\frac{1}{M_2}\exp\left\{-\frac{1}{2\lambda}\sum_{x,y}\sum_{c}\rho[d_c(z_{x,y})]\right\}

其中的cc是各通道的图像。这里的函数ρ\rho定义为修正后的Huber函数,即:

ρ[dc(zx,y)]={12dc2(zx,y)dc(zx,y)δδdc(zx,y)12δ2dc(zx,y)>δ\rho[d_c(z_{x,y})]=\left\{ \begin{aligned} &\frac{1}{2}d_c^2(z_{x,y}) & |d_c(z_{x,y})|\leq \delta\\ &\delta|d_c(z_{x,y})|-\frac{1}{2}\delta^2 & |d_c(z_{x,y})|>\delta \end{aligned} \right.

这里的dc(zx,y)d_c(z_{x,y})是图像的梯度,δ\delta是一个超参数阈值。使用正则项合并两个概率函数后,得到的优化函数为:

z^=arg minzE(z)=arg minzλQ(gAzB)2+x,ycρ[dc(zx,y)]\hat{\mathbf{z}}=\argmin\limits_\mathbf{z}E(\mathbf{z})=\argmin\limits_\mathbf{z} \lambda\left|\left|\mathbf{Q\odot(g-A\odot z-B)}\right|\right|^2+\sum_{x,y}\sum_{c}\rho[d_c(z_{x,y})]

优化算法

本文使用了改进版梯度下降法,使用梯度的二阶泰勒级数修正梯度,以保证下降率,得到:

βn=TE(znE(zn))TE(zn)2E(zn)E(zn)\beta_n=\frac{\nabla^T E(\mathbf{z}_n\nabla E(\mathbf{z}_n))}{\nabla^T E(\mathbf{z}_n)\nabla^2 E(\mathbf{z}_n)\nabla E(\mathbf{z}_n)}

使用修正梯度下降法:

z^n+1=z^nβnE(zn)\hat{\mathbf{z}}_{n+1}=\hat{\mathbf{z}}_n-\beta_n\nabla E(\mathbf{z}_n)

然后在去噪图像收敛时停止迭代。

内容评价

本文在深度学习问世之前就已经提出了基于MAP的图像生成式算法,具有极高的前瞻性,甚至可以说是初步具备了VAE的雏形。当然本文仍然没有摆脱传统图像处理的框架,即仍然没有数据集的概念,同一个算法只在同一幅图像上反复运行,而在新的图像上又需要重新训练,不能达到训练一次完成多次使用的效果(当然这是机器学习的普遍问题)。将本文的算法与深度学习的生成式去噪模型结合,似乎可以完成对条纹的较好程度去除,是可以尝试的方向。

另一个不足就是整个去噪领域的普遍问题,即都需要对噪声有先验的信息,在本文中体现为对噪声方差矩阵Q\mathbf{Q}的先验确定,这是在了解成像器件前提下才能够取得较好的去噪效果,对于未知的成像器件,这个办法是难以奏效的。

第五篇文献

Anisotropic Spectral-Spatial Total Variation Model for Multispectral Remote Sensing Image Destriping

解决的问题

本文提出的是利用多通道(多光谱)遥感图像完成条纹去除的方法,主要解决了单一通道下遥感图像条纹模式难以去除,或者去除后图像的质量下降的问题,本文仍然使用的是基于全变分的方法。

主要内容

本文沿袭了上文中MAP的思想,仍然采用的是机器学习的方法完成退化图像的重建。本文提出的目标函数是:

arg minu12uf22+λ1Dxu1+λ2Dy(uf)1+λ3Dzu1\argmin\limits_{\mathbf{u}}\frac{1}{2}\|\mathbf{u-f}\|^2_2+\lambda_1\|\mathbf{D}_x\mathbf{u}\|_1+\lambda_2\|\mathbf{D}_y\mathbf{(u-f)}\|_1+\lambda_3\|\mathbf{D}_z\mathbf{u}\|_1

其中的Dx\mathbf{D}_x等表示对应方向上的差分算子。

值得注意的是,这里的yy方向上梯度是被目标函数保存的,因为文中的条纹都是沿着yy方向的。

本文在该目标函数的基础上,还引入了等式约束,即期望图像在特定位置上的梯度与期望值相符合,即有:

arg minu12uf22+λ1Dxu1+λ2Dy(uf)1+λ3Dzu1s.t. dx=Dxu,dy=Dy(uf),dz=Dzu\argmin\limits_{\mathbf{u}}\frac{1}{2}\|\mathbf{u-f}\|^2_2+\lambda_1\|\mathbf{D}_x\mathbf{u}\|_1+\lambda_2\|\mathbf{D}_y\mathbf{(u-f)}\|_1+\lambda_3\|\mathbf{D}_z\mathbf{u}\|_1\\ \text{s.t. }\mathbf{d}_x=\mathbf{D}_x\mathbf{u},\mathbf{d}_y=\mathbf{D}_y\mathbf{(u-f)},\mathbf{d}_z=\mathbf{D}_z\mathbf{u}

显然该问题得不到闭式解,本文首先用正则项将等式约束约去,得到无约束优化问题,即有:

arg minu12uf22+λ1Dxu1+λ2Dy(uf)1+λ3Dzu1+μ2uv22+α2Dxudx22+β2Dy(uf)dy22+γ2Dzudz22\argmin\limits_{\mathbf{u}}\frac{1}{2}\|\mathbf{u-f}\|^2_2+\lambda_1\|\mathbf{D}_x\mathbf{u}\|_1+\lambda_2\|\mathbf{D}_y\mathbf{(u-f)}\|_1+\lambda_3\|\mathbf{D}_z\mathbf{u}\|_1+\frac{\mu}{2}\|\mathbf{u-v}\|^2_2+\\ \frac{\alpha}{2}\|\mathbf{D}_x\mathbf{u}-\mathbf{d}_x\|^2_2+\frac{\beta}{2}\|\mathbf{D}_y\mathbf{(u-f)}-\mathbf{d}_y\|^2_2+\frac{\gamma}{2}\|\mathbf{D}_z\mathbf{u}-\mathbf{d}_z\|^2_2

然后使用Bregman迭代法求解,并加入快速傅立叶变换以加快迭代步骤的计算,具体公式较为复杂,此处略去,三个梯度方向上的计算与迭代可以并行处理。

内容评价

本文在深度学习初步兴起的时代,仍然坚持使用传统的机器学习方法处理遥感图像,充分结合了变分法、快速傅立叶变换、Bregman迭代法等传统成果,算是遥感图像处理领域的集大成者,其在条纹去除上的效果也是相当不错的,且较上文相比更轻量,迭代次数减少, 使用CPU即可完成遥感图像的快速处理。但是本文有一个明显的缺点,即算法需要多个通道的条纹模式不同,然后使用不同模式但是相同位置处的条纹信息相互补充,以得到最终的去条纹效果。

第六篇文献

Poisson Image Editing

解决的问题

经典文献,来自2003年的优秀数学成果,目前已经作为Opencv的函数库成员之一,在图像拼接领域和PS等应用上有着重要的应用。解决了拼接图像因为光度、对比度等光照相关问题导致的拼接鏠问题,能够在不加入其他先验知识的情况下,仅依靠两幅原始图像完成高质量拼接和嵌入。

主要内容

本文深厚的数学功底是最大的亮点,至今仍然被使用。

优化函数模型

沿承自传统的拼接算法,本文在膜插值的基础上,增加了引导矢量场的概念,将原始图像在待插入位置的梯度信息和光度信息作为先验知识加入至插入片段中,保证了插入前后图像在风格上的统一与协调。其数学优化目标为:

arg minffv2 with fΩ=fΩ\argmin\limits_f\iint|\nabla f-\mathbf{v}|^2 \text{ with } f|_{\partial \Omega}=f^*|_{\partial \Omega}

其中,标量函数ff_*是待插入(或者待拼接)的图像片段,其定义域为待插入的坐标范围。标量函数ff为母版图像,即被插入的图像,定义为舍去待插入区域的其他图像区域。同时约束条件保证两者在插入片段边界Ω\partial\Omega上的取值是一致的,即图像像素连续。

此外,还需要保证插入前后满足Dirichlet边界条件,即一维连续条件,保证插入片段在某个引导矢量场在插入位置上逐点散度相同,即有:

Δf=div(v) with fΩ=fΩ\Delta f = \mathrm{div} \mathbf{(v)}\text{ with }f|_{\partial \Omega}=f^*|_{\partial \Omega}

作者对本条约束条件作了一个等价变换,即假设这个引导矢量场是保守的(即它可以写作是某个场函数gg的梯度),则上式可以写作:

Δf~=0 with f~Ω=(fg)Ω\Delta \tilde{f} = 0 \text{ with }\tilde{f}|_{\partial \Omega}=(f^*-g)|_{\partial \Omega}

式中f=f~+gf=\tilde{f}+g,称f~\tilde{f}为修正函数,以保证插入前后图像连续统一。

求解方法

本文另一点重要成果是,给出了上式优化目标的闭式解,即在图像离散量化的情况下,先验引导矢量场的前提下,可以使用边界值和梯度值直接解出插入位置处的图像像素函数fpf_p,即有:

NpfpqNpΩfq=qNpΩfq+qNpvpq|N_p|f_p-\sum_{q\in N_p\cap\Omega}f_q=\sum_{q\in N_p\cap\partial\Omega}f_q^*+\sum_{q\in N_p}v_{pq}

其中,NpN_p是像素pp位置处的四邻接邻域,vpq=v(p+q2)v_{pq}=\mathbf{v}(\frac{p+q}{2})是引导矢量场上梯度位置处的内插取值,fqf^*_q项是插入片段的边界取值,当插入的片段不含有边界时(例如图像直接拼接或者片段位于图像的边框处),忽略该项Np|N_p|表示像素pp的四邻接领域的像素个数。

成果展示

该算法在图像处理领域威力巨大,应用广泛,从无缝插入、到风格迁移、再到局部光度校正,都能够取得良好的处理效果,不输于Diffusion模型。

应用很多,再此不再举例。

内容评价

祖宗之法,不可妄加评说,本文最大的成功在于数学基础上的胜利,使用矢量引导场的方法,避免了传统插入拼接图像过分强调梯度信息而导致整体网格的退化。使用场融合的方式,也能够为后续的图像处理和深度学习领域提供参考。

这才是真正的计算机视觉!没有数学基础的CV都是浮云!

第七篇文献

Lunar Crater Detection on Digital Elevation Model: A Complete Workflow Using Deep Learning and Its Application

解决的问题

本文提供了一个详细的工作范式,以使得数字高程模型完成对陨石坑的检测任务,包括完整的数据集获取、数据集预处理、标注数据处理、基于三种不同工作原理的检测网络搭建以及检测结果的对比评价,以便于后来者进行完整的复现实验与应用。

主要内容

本文工作量较多,主要分为以下几个方面来陈述:

数据集准备

本文使用的数据集是来自NASA的*Lunar Orbiter Laser Altimeter (LOLA)机载相机和Lunar Reconnaisance Orbiter (LRO)*地形图与数字高程地图,将61440×18432061440\times 184320分辨率的图像压缩至30720×9216030720\times 92160分辨率,然后以六种比率方式裁剪图像取得金字塔结构的子图像集,对每种子图像集均压缩至512×512512\times 512的分辨率以便于后续检测网络输入。

值得注意的是,作者在处理裁剪后的图像时,为了保证边缘较大陨石坑的完整性,将裁剪的大图像再作了一次小范围的裁剪patch,如下示意图:
裁剪与补丁示意图
不同比例的裁剪存储方式,相当于对图像作一次增强agumentation。实质上增强了检测网络的泛化能力。

三种检测网络

本文使用了基于区域提取Regional Proposal的检测网络:Faster R-CNNFaster R-CNNCascade R-CNN,基于锚点的检测网络:SSDRetinaNetYOLOv3以及基于点提取的检测网络:FoveaBoxFCOSRepPoints,共计使用9种现行检测网络对陨石坑目标作矩形框检测,上述网络的Backbone均采用的是VGG16网络,综上所述可谓之

工作量真大!

在得到检测矩形框后,作者再使用一次矩形向圆形的转换,即直接矩形框的内接圆作为陨石坑检测结果,并根据等距圆柱投影原理将检测结果反投影至三维月球标注集中,使用IoU指标验证其检测结果,使用纬度和经度信息修正了重叠部分面积的计算。

结果对比

作者将上述9种网络的检测结果按准确度AP、参数数量以及浮点数计算次数分别作对比,结果表明,Faster R-CNN + FPN能够较好地兼顾浮点数计算次数与检测准确率的关系,可以作为陨石坑的推荐检测算法。

内容评价

本文的工作量相当惊人,可以说是基本上覆盖了我的毕业设计要做的全部内容(再一次说明毕业论文的工作真无聊)。本文提出的方法无非就是把FPN网络加在Faster R-CNN上,减少了网络的浮点数计算量,除此以外没有别的创新。

第八篇文献

Crater Detection Using Unsupervised Algorithms and Convolutional Neural Networks

解决的问题

来自遥感领域的顶刊,本文采用曲线救国的方式,将深度学习中流行CNN框架与传统图像处理和机器学习领域的迭代算法结合,在陨石坑检测上取得了较好的处理速度与处理精度,提出的自监督算法能够为CNN检测提供较好的候选陨石坑样本。

主要内容

本文的工作主要分为两个部分,一是提出了四种自监督的陨石坑初筛算法,相当于起到了检测领域的RPN的作用,为后续的CNN网络减少了搜索量。二是提出了基于CNN的分类验证筛选网络,仅将候选的陨石坑全部筛选验证,以减少误检率。

四个自监督算法

基于传统的机器学习,分别是兴趣点检测Interest Point Detection,基于凸包的聚类检测Convex Grouping-based CDA,基于霍夫变换的假设-检验模型和基于高亮-阴影区域Highlight-shadow的假设-检验模型。以下四种算法的原理不再赘述,现简单说明其思路:

  1. 凸包聚类:对输入图像作减去模糊模板得到锐化掩模,然后使用Canny算子求解边缘,在各条边缘处拟合直线,以直线围成的封闭框作为待检测的陨石坑候选区域,然后作一次重叠区域合并。
  2. 霍夫变换:在原始图像上使用一次中值滤波后使用Canny算子提取边缘,对边缘求解霍夫变换,在一众闭合圆检测框中合并重叠区域得到最终候选陨石坑。
  3. 高亮-阴影检测:对输入图像取反并锐化掩模处理后的输入图像作阈值化处理,得到正负两个亮度下的陨石坑连通区域,使用距离算子匹配两个亮度下的连续区域,符合条件高亮-阴影区域的作为候选陨石坑。
  4. 兴趣点检测:使用下采样方法产生输入金字塔I1I4I_1\sim I_4对输入图像各点处计算其Heissan矩阵,对特征值超过阈值的点作为感兴趣点(相当于求出了陨石坑的中心),然后在感兴趣点周边以10×1010\times 10作为区域提取上采样,合并重叠区域得到最终候选陨石坑。

在使用以上四种方式预处理陨石坑数据集后,将得到回调率较高(99.61%)的候选陨石坑,然后使用CNN网络检测候选的陨石坑,只需要使用一步简单的分类网络,即可取得较高的检测准确率97.9%。

内容评价

本文采用的方法更相当于传统意义上的RPN+检测网络,即先完成区域提取,然后在提取得到的子区域上运行分类网络检测陨石坑的存在性。由于陨石坑的几何特征的鲜明性以及背景的单调性,本文的方法能够取得较高的检测准确率与回调率,在方法层面没有其他的创新。

第九篇文献

Feature Generating Networks for Zero-Shot Learning

解决的问题

本文的提出为了解决零样本分类任务学习的问题,提出了一种生成特征的网络,以方便分类网络从生成的特征中学习分类数据集中未出现的类别特征,从而在不需要生成样本的情况下提高零样本学习的效果。

主要内容

在传统GAN的优化函数的基础上,即:

minGmaxDV(D,G)=Expdata(x)[logD(x,c(y))]+Ezpz(z)[log(1D(G(z),c(y)))]\min\limits_G\max\limits_D V(D,G)=E_{x\sim p_{data}(x)}[\log D(x,c(y))]+E_{z\sim p_z(z)}[\log(1-D(G(z),c(y)))]

而文章抛弃了在对数似然概率上的传统优化目标,使辨别网络的输出量直接为实数值。将GAN的测度距离换成了Wasserstein距离,同时加入辨别网络D\mathcal{D}的梯度量归一化惩罚项,以保证生成的特征是一阶光滑的,如下式所示:

LWGAN=Expdata(x)[D(x,c(y))]Ezpz(z)[D(G(z),c(y))]+λEx^px^[(x^D(x^,c(y))21)2]\mathcal{L}_\mathrm{WGAN}=E_{x\sim p_{data}(x)}[D(x,c(y))]-E_{z\sim p_z(z)}[D(G(z),c(y))]+\lambda E_{\hat{x}\sim p_{\hat{x}}}[(\|\nabla_{\hat{x}}D(\hat{x},c(y))\|_2-1)^2]

此外,由于本文的细分领域在于分类,因此作者再度引入以分类交叉熵的正则项,如下:

Lcls=Ez[logp(yG(z);θ)]\mathcal{L}_\mathrm{cls}=E_{z}[-\log p(y|G(z);\theta)]

其中的θ\theta是在可见分类数据集上预先训练得到的分类网络的参数。而为了在不可见的类别上亦取得足够的分类精度,在训练GAN的过程,作者保证生成的编码embedding特征图能够被分类网络正确地学习到,而GAN网络震要预先在较大的分类数据集上训练,以保证能够取得带有分类信息的特征编码空间。即需要取得一个满足对分类网络有较好分类效果的编码GAN:

f(x)=arg maxyF[x,c(y);W]f(x)=\argmax\limits_{y}F[x,c(y);W]

式中的WW就是参数化的编码网络。然后,在进行零样本学习时,需要先输入已知的特征编码,由GAN网络生成对应编码的特征图并交由分类网络学习。网络的整体结构如下图所示:
CLSWGAN架构图

内容评价

本文生成式网络主要面向的分类任务的零样本学习

换句话说,其实这个论文对我没有啥用。

但是其思路可以借鉴,即在特征空间中的加入的编码能够比在样本空间直接编码更有效果,不管是分类任务还是其他什么任务,都可以借鉴其思路,即想办法把问题转化为特征空间、隐空间,然后对深层特征作处理。

第十篇文献

1000× Faster Camera and Machine Vision with Ordinary Devices

解决的问题

本篇也是一篇综述性质的文章,介绍了黄铁军团队设计研发脉冲相机的全过程流程,详细记录了脉冲相机的脉冲编码原理、脉冲电路设计、脉冲数据处理、基于深度学习的脉冲数据集以及SNN网络设计等过程,提供了一套完整的脉冲视觉处理范例。

主要内容

脉冲相机及其处理这里不再赘述,前面已经被介绍过了,这里单独说明一下脉冲相机的电路设计,仅使用原始文献中的说法,因为其与事件相机有相似之处。脉冲相机单个像素处的电路设计如下:
脉冲像素电路设计图
电路主体分为三个部分,这里可以与事件相机的电路设计作一个对比,如下图所示:
事件像素电路设计图
二者在左半部分有着高度的相似之处,而脉冲相机在左半部分明确指出是脉冲发生器,其工作原理是:当光电二极管上电流随光照增强而增大时,光电二极管电压下降,至低于电位比较器设定的阈值时,比较器产生导通信号接通中间部分的自复位电路Self-reset unit,由自复位电路产生一个脉冲,并导通复位场效应管Reset transistor。本电路环节产生脉冲信号将由像素内的读出电路In-pixel readout circuit完成缓存、编码与输出。读出周期可低至50ns50\mathrm{ns}

温故知新,可以推测事件相机的电路设计特点了

事件相机的电路设计也具有相似的特点,其左半框可以认为是相似的脉冲发生器,扮演的角色与脉冲相机的作用完全一致。在由中间部分的MnM_nMcasM_\mathrm{cas}MprM_\mathrm{pr}构成的是典型的比较运算电路,其与McasM_\mathrm{cas}的栅极偏置电位作比较,当电位VdV_\mathrm{d}小于该偏置电位时,比较器导通,将直接产生两个后果:

  1. MfbM_\mathrm{fb}场效应管被接通,电位被直接复位。
  2. MsfM_\mathrm{sf}场效应管被接通,由中间的事件触发电路产生事件信号,并由后部的输出回路产生编码输出。

目前事件相机的电路设计部分还有问题尚未清楚。

内容评价

本篇文章的内容不太好评价,且因为其祖师爷的级别, 尚无人可以挑战其在脉冲相机界的权威。