前言
这里记录一下学习过程中遇到的一些数学记号及其对应性质,在下次遇到后可以直接使用不至于陌生。对于成体系的数学记号,则单独归纳为一篇博客。
KL散度
参考自:KL散度
英文名:Kullback-Leibler divergence ,是一种用于衡量两个概率分布之间差异的指标,其定义为:
D K L [ P ( x ) ∣ ∣ Q ( x ) ] = ∑ x ∈ X P ( x ) ln [ P ( x ) Q ( x ) ] D_\mathrm{KL}[P(x)||Q(x)]=\sum\limits_{x\in\mathcal{X}}P(x)\ln\Big[\frac{P(x)}{Q(x)}\Big]
D KL [ P ( x ) ∣∣ Q ( x )] = x ∈ X ∑ P ( x ) ln [ Q ( x ) P ( x ) ]
KL散度描述的是使用概率分布Q ( x ) Q(x) Q ( x ) 来描述分布P ( x ) P(x) P ( x ) 的编码损失,其性质是非负的、仿射不变的且非对称的。
期望记法
在文献Auto-Encoding Variational Bayes 和Denoising Diffusion Probabilistic Models 等中经常见到的一种表达式,例如:E q [ ∙ ] \mathbb{E}_q[\bullet] E q [ ∙ ] 和E q ϕ ( z ∣ x ) [ ∙ ] \mathbb{E}_{q_\phi(\mathbf{z|x})}[\bullet] E q ϕ ( z∣x ) [ ∙ ] ,似乎是将概率密度当成了随机变量在求均值,乍一看难以理解,实际上,如果设随机变量x x x 的事件全集为Ω \Omega Ω ,则有:
E x [ f ( x ) ] = ∑ x ∈ Ω x f ( x ) \mathbb{E}_x[f(x)]=\sum_{x\in\Omega}xf(x)
E x [ f ( x )] = x ∈ Ω ∑ x f ( x )
式中f f f 表示某一映射 ,将随机变量映射为确定的量以用于求解均值,常见的映射如概率密度函数p ( x ) p(x) p ( x ) 、p ( x ∣ y ) p(x|y) p ( x ∣ y ) 等,也经常在KL散度的表示式中出现对数概率密度log p ( x ) \log p(x) log p ( x ) 等。如果在该式中出现了映射函数的乘积,例如E x [ f ( x ) g ( x ) ] \mathbb{E}_x[f(x)g(x)] E x [ f ( x ) g ( x )] ,可进一步简写为:
∑ x ∈ Ω f ( x ) g ( x ) = ∑ f ( x ) ∈ f ( Ω ) f ( x ) g ( x ) ≜ E f ( x ) [ g ( x ) ] ≜ E x ∼ f ( x ) [ g ( x ) ] \sum_{x\in\Omega}f(x)g(x)=\sum_{f(x)\in f(\Omega)}f(x)g(x)\triangleq\mathbb{E}_{f(x)}[g(x)]\triangleq\mathbb{E}_{x\sim f(x)}[g(x)]
x ∈ Ω ∑ f ( x ) g ( x ) = f ( x ) ∈ f ( Ω ) ∑ f ( x ) g ( x ) ≜ E f ( x ) [ g ( x )] ≜ E x ∼ f ( x ) [ g ( x )]
其中后者在GAN网络的论文中曾经出现过,也是一种常见的期望记号。从而:
D K L [ q ( x ) ∣ ∣ p ( x ) ] = E q ( x ) [ log q ( x ) − log p ( x ) ] = E x ∼ q ( x ) [ log q ( x ) − log p ( x ) ] \begin{aligned}
D_\mathrm{KL}[q(x)||p(x)]&=\mathbb{E}_{q(x)}[\log q(x)-\log p(x)]\\
&=\mathbb{E}_{x\sim q(x)}[\log q(x)-\log p(x)]
\end{aligned}
D KL [ q ( x ) ∣∣ p ( x )] = E q ( x ) [ log q ( x ) − log p ( x )] = E x ∼ q ( x ) [ log q ( x ) − log p ( x )]
条件熵
条件熵记号,其定义式为:
∀ X ( e ) ∈ Ω , H ( X ∣ y ) = − ∑ i = 1 n p ( x i ∣ y ) ln p ( x i ∣ y ) \forall X(e)\in\Omega,H(X|y)=-\sum\limits_{i=1}^np(x_i|y)\ln p(x_i|y)
∀ X ( e ) ∈ Ω , H ( X ∣ y ) = − i = 1 ∑ n p ( x i ∣ y ) ln p ( x i ∣ y )
该定义来自于信息论(自然对数或者常用对数都不影响最终结果),当X X X 是预测分类的结果,y y y 是对应的正确分类时,上式成为分类问题常用的交叉熵。
Fischer信息
参考自维基百科:Fischer信息
Fischer信息反映了参数估计的似然函数与实际的概率密度函数之间的差异,当二者完全相同时,Fischer信息为0,当二者差异越大时,Fischer信息越大。Fischer信息定义为似然函数得分score 的方差,即为:
I ( θ ) = E [ ( ∂ ∂ θ ln L ( x ; θ ) ) 2 ] ≜ ⟨ ( ∂ ∂ θ ln L ( x ; θ ) ) 2 ⟩ I(\theta)=\mathbb{E}\Big[\Big(\frac{\partial}{\partial\theta}\ln L(x;\theta)\Big)^2\Big]\triangleq\Big\langle\Big(\frac{\partial}{\partial\theta}\ln L(x;\theta)\Big)^2\Big\rangle
I ( θ ) = E [ ( ∂ θ ∂ ln L ( x ; θ ) ) 2 ] ≜ ⟨ ( ∂ θ ∂ ln L ( x ; θ ) ) 2 ⟩
特别地,如果对数似然函数是二阶可微的,上式可以得到进一步化简为:
I ( θ ) = − E [ ∂ 2 ∂ θ 2 ln L ( x ; θ ) ] ≜ − ⟨ ∂ 2 ∂ θ 2 ln L ( x ; θ ) ⟩ I(\theta)=-\mathbb{E}\Big[\frac{\partial^2}{\partial\theta^2}\ln L(x;\theta)\Big]\triangleq-\Big\langle\frac{\partial^2}{\partial\theta^2}\ln L(x;\theta)\Big\rangle
I ( θ ) = − E [ ∂ θ 2 ∂ 2 ln L ( x ; θ ) ] ≜ − ⟨ ∂ θ 2 ∂ 2 ln L ( x ; θ ) ⟩
此时,认为似然函数是当前概率分布密度函数的近似,则有:
∫ − ∞ + ∞ ∂ 2 L ( x ; θ ) ∂ θ 2 d x = 0 \int\limits_{-\infty}^{+\infty}\frac{\partial^2 L(x;\theta)}{\partial \theta^2}\mathrm{d}x=0
− ∞ ∫ + ∞ ∂ θ 2 ∂ 2 L ( x ; θ ) d x = 0
因此上式成立,请注意负号的存在。
资格迹
参考自知乎 和medium
英文原名:Eligibility Traces ,是强化学习中的一种训练方法(另外两种常见的分别是蒙特卡洛方法Monte Carlo methods 和时间差分法Time Differetiating ),类似于小批量梯度下降和随机梯度下降这种关系,资格迹方法是蒙特卡洛方法和时间差分法的结合。在有值函数和状态-动作值函数的情况下,资格迹方法可以用来更新值函数和状态-动作值函数的参数,如下式:
θ ← θ + α × e ( s , a ) × ∇ θ Q ( s , a ) \theta \leftarrow \theta + \alpha \times e(s, a) \times \nabla_\theta Q(s, a)
θ ← θ + α × e ( s , a ) × ∇ θ Q ( s , a )
式中,α \alpha α 是学习率,θ \theta θ 是值函数或状态-动作值函数的参数,e ( s , a ) e(s, a) e ( s , a ) 是资格迹这里是与迭代步长呈现指数衰减的函数,Q ( s , a ) Q(s, a) Q ( s , a ) 是值函数或状态-动作对所对应的值函数。
2D射影变换估计
参考自《计算视觉中的多视图几何》Multiple View Geometry in Computer Vision Second Edition 。经常遇到一种奇特的代价函数,被称为是“reprojection error”,即重投影误差,今天在课上才发现居然此书中就有,因此学习之。
该问题可以归纳为,空间中两个点列的对应关系由通式:x i ′ = H x i \mathbf{x_i'=Hx_i} x i ′ = H x i 给出,其中左右分别代表某个点的齐次坐标 ,变换矩阵是升一维的齐次变换阵。问题即在已知两个点列以及对应关系的情况下,求解这个齐次变换阵。
数学模型
以二维为例,齐次式含有隐式的齐次因子,且不同的点之间这个齐次因子有可能是不一样的(因为同一个齐次坐标可以有无数个表示方式,很有可能该齐次因子是不同的),所以需要在同一个点内部构造相等变换,消去齐次因子,这就需要使用向量外积,有:
x i ′ × H x i = 0 \mathbf{x_i'}\times\mathbf{Hx_i}=0
x i ′ × H x i = 0
这里,可以使用外积的矩阵法表示,即有:
x i ′ x i T H T − H x i x i ′ T = 0 \mathbf{x_i'x_i^\mathrm{T}H^\mathrm{T}}-\mathbf{Hx_ix_i'^\mathrm{T}}=0
x i ′ x i T H T − H x i x i ′ T = 0
如果以h 1 T , h 2 T , h 3 T \mathbf{h_1^\mathrm{T},h_2^\mathrm{T},h_3^\mathrm{T}} h 1 T , h 2 T , h 3 T 作为H \mathbf{H} H 矩阵的行向量 ,以x i = ( x i , y i , z i ) T x_i=(x_i,y_i,z_i)^\mathrm{T} x i = ( x i , y i , z i ) T 作为向量的坐标,则上式可以写作:
{ y i ′ h 3 T x i − z i ′ h 2 T x i = 0 z i ′ h 1 T x i − x i ′ h 3 T x i = 0 x i ′ h 2 T x i − y i ′ h 1 T x i = 0 \begin{cases}
y_i'\mathbf{h_3^\mathrm{T}x}_i-z_i'\mathbf{h_2^\mathrm{T}x}_i=0\\\\
z_i'\mathbf{h_1^\mathrm{T}x}_i-x_i'\mathbf{h_3^\mathrm{T}x}_i=0\\\\
x_i'\mathbf{h_2^\mathrm{T}x}_i-y_i'\mathbf{h_1^\mathrm{T}x}_i=0
\end{cases}
⎩ ⎨ ⎧ y i ′ h 3 T x i − z i ′ h 2 T x i = 0 z i ′ h 1 T x i − x i ′ h 3 T x i = 0 x i ′ h 2 T x i − y i ′ h 1 T x i = 0
该方程中实际只有两个是独立的,第三个方程可以由前两个方程推出,因此可以只使用前两个方程并改写为更容易记忆的形式:
[ 0 − z i x i T y i x i T z i x i T 0 − x i x i T ] [ h 1 h 2 h 3 ] = 0 ≜ A i V ( H ) = 0 \begin{bmatrix}
0&-z_i\mathbf{x}_i^\mathrm{T}&y_i\mathbf{x}_i^\mathrm{T}\\
z_i\mathbf{x}_i^\mathrm{T}&0&-x_i\mathbf{x}_i^\mathrm{T}\\
\end{bmatrix}\begin{bmatrix}
\mathbf{h_1}\\
\mathbf{h_2}\\
\mathbf{h_3}
\end{bmatrix}=0\triangleq\mathbf{A}_i\mathcal{V}(\mathbf{H})=0
[ 0 z i x i T − z i x i T 0 y i x i T − x i x i T ] h 1 h 2 h 3 = 0 ≜ A i V ( H ) = 0
式中,A i \mathbf{A}_i A i 是一个2 × 9 2\times9 2 × 9 的矩阵,V ( H ) \mathcal{V}(\mathbf{H}) V ( H ) 表示将矩阵H \mathbf{H} H 按行展开为一个列向量。求解该方程,一般可以使用奇异值分解 求最小特征值的方法,但是为了满足更高精度的要求,需要选用更加合适的向量范数以构造代价函数。另一种思路则是将齐次坐标非齐次化,即某维度归一,但是这样不一定能够得到稳定的解(比如变换出现在无穷远点),因此不推荐使用。
代价函数
代数距离,对于两个向量x 1 , x 2 \mathbf{x}_1,\mathbf{x}_2 x 1 , x 2 ,可以定义其代数距离为:
d 2 ( x 1 , x 2 ) = a 1 2 + a 2 2 with a = x 1 × x 2 d^2(\mathbf{x}_1,\mathbf{x}_2)=a_1^2+a_2^2\text{ with }\mathbf{a=x_\mathrm{1}\times x}_2
d 2 ( x 1 , x 2 ) = a 1 2 + a 2 2 with a = x 1 × x 2
即代数距离只计算有效方程贡献的差值,不计算线性相关项 。代数距离计算简单且快捷,但是计算结果没有具体的物理意义,因此多用于初次迭代。
2. 几何距离,对于两幅点相互对应的图像,在已知变换矩阵的情况下,可以计算两幅图像中对应点的几何距离,该几何距离就是欧氏距离。
转移误差
在动态视觉或者多视图领域,往往需要将一幅图向另一幅图进行对应,对应的过程引入了转换矩阵,而对应的结果需要进行评估,这就需要引入转移误差的概念,将转移误差优化至最小值,即为算法得到了最佳的转换矩阵估计值H ˜ \mathbf{\~H} H ˜ 。
若设x i \mathbf{x}_i x i 是第一幅图的点,x i ′ \mathbf{x}_i' x i ′ 是第二幅图的点,转移矩阵为H \mathbf{H} H 。
单图转移误差
仅从第一张图向第二张图转换,得到的转换误差可用全部点的几何距离描述,即有:
C ( H ) = ∑ i d 2 ( H x i , x i ′ ) = ∥ x i ′ − H x i ∥ 2 2 C(\mathbf{H})=\sum\limits_{i}d^2(\mathbf{Hx}_i,\mathbf{x}_i')=\|\mathbf{x}_i'-\mathbf{Hx}_i\|_2^2
C ( H ) = i ∑ d 2 ( Hx i , x i ′ ) = ∥ x i ′ − Hx i ∥ 2 2
对称转移误差
认为转移是两个方向的,即有:
C ( H ) = ∑ i d 2 ( H x i , x i ′ ) + ∑ i d 2 ( H − 1 x i ′ , x i ) = ∥ x i ′ − H x i ∥ 2 2 + ∥ x i − H − 1 x i ′ ∥ 2 2 C(\mathbf{H})=\sum\limits_{i}d^2(\mathbf{Hx}_i,\mathbf{x}_i')+\sum\limits_{i}d^2(\mathbf{H}^{-1}\mathbf{x}_i',\mathbf{x}_i)=\|\mathbf{x}_i'-\mathbf{Hx}_i\|_2^2+\|\mathbf{x}_i-\mathbf{H}^{-1}\mathbf{x}_i'\|_2^2
C ( H ) = i ∑ d 2 ( Hx i , x i ′ ) + i ∑ d 2 ( H − 1 x i ′ , x i ) = ∥ x i ′ − Hx i ∥ 2 2 + ∥ x i − H − 1 x i ′ ∥ 2 2
对称转移误差得到的结果仍然不能保证两幅图中的点是重合的,对于需要估计“校正”结果的情况,该方法不适用,为此,引入了重投影误差。
重投影误差
核心思想是:在两幅图上找到一组能够转换重合的点(称为完全匹配点,记为点x ˜ ′ = H x ˜ \mathbf{\~x}'=\mathbf{H\~x} x ˜ ′ = H x ˜ ),计算各自图上点到该附加点的几何距离作为校正误差,称为重投影误差,即有:
C ( H ) = ∑ i [ d 2 ( x i , x ˜ i ) + d 2 ( x i ′ , x ˜ i ′ ) ] C(\mathbf{H})=\sum\limits_{i}\Big[d^2(\mathbf{x}_i,\mathbf{\~x}_i)+d^2(\mathbf{x}_i',\mathbf{\~x}_i')\Big]
C ( H ) = i ∑ [ d 2 ( x i , x ˜ i ) + d 2 ( x i ′ , x ˜ i ′ ) ]
求解过程
求解基于几何距离的重投影误差是非常困难的,通常需要迭代法,另一种可行的方法是使用Sampson误差近似,将代价函数使用Taylor一阶展开式:
C ( H , X + δ X ) ≈ C ( H , X ) + C ( H , X ) ∂ X δ X = E + J δ X C(\mathbf{H,X+\delta X})\approx C(\mathbf{H,X})+\frac{C(\mathbf{H,X})}{\partial\mathbf{X}}\delta\mathbf{X}=\mathbf{E+J\delta X}
C ( H , X + δ X ) ≈ C ( H , X ) + ∂ X C ( H , X ) δ X = E + J δ X
使代价函数为0,即有:
E + J δ X = 0 \mathbf{E+J\delta X}=0
E + J δ X = 0
使用拉格朗日乘子法并求解,可以得到Sampson距离,即有:
∣ ∣ δ X ∣ ∣ s 2 = E T ( J J T ) − 1 E ||\mathbf{\delta X}||_s^2=\mathbf{E^\mathrm{T}(JJ^\mathrm{T})^{-1}E}
∣∣ δ X ∣ ∣ s 2 = E T ( J J T ) − 1 E
用该距离代替几何距离以计算重投影误差,可以得到Sampson误差近似。
分类结果评价指标
参考自知乎
在机器学习的分类 领域经常见到这个准则,即假阳性、真阳性判据,可用于更加全面地计算平均准确率mAP 。需要对这个准则作一个总结。
四个基本量
TP:真阳性,即预测为正样本且实际为正样本的数量。
FP:假阳性,即预测为正样本但实际为负样本的数量。
TN:真阴性,即预测为负样本且实际为负样本的数量。
FN:假阴性,即预测为负样本但实际为正样本的数量。
三个导出量
精确率:P = T P T P + F P \displaystyle P=\frac{TP}{TP+FP} P = TP + FP TP ,即预测为正样本的样本中实际为正样本的比例。
召回率:R = T P T P + F N \displaystyle R=\frac{TP}{TP+FN} R = TP + FN TP ,即实际为正样本的样本中预测为正样本的比例。
准确率:A = T P + T N T P + T N + F P + F N \displaystyle A=\frac{TP+TN}{TP+TN+FP+FN} A = TP + TN + FP + FN TP + TN ,即预测正确的样本占总样本的比例。又简称为ACC 。
两个评价方式
F1-score,即F 1 = ( a 2 + 1 ) P R a 2 ( P + R ) \displaystyle F_1=\frac{(a^2+1)PR}{a^2(P+R)} F 1 = a 2 ( P + R ) ( a 2 + 1 ) PR ,是精确率和召回率的综合评估量,a a a 值可经显著性水平查表得取得,可以用于评价分类器的整体性能。
ROC曲线,即以假阳性率为横轴,真阳性率为纵轴,绘制的曲线,可以用于评价分类器的整体性能。
曲线越靠近左上(此图中),曲线越远离中间对角性,则分类性能越好。
几个有关图像相似性的评价指标
最原始的指标有逐像素的RME 以及峰值信噪比PSNR ,但是这两个指标都反映了整体上的概念而对细节上把握程度不够,不能够反映人眼对图像获取到的相似度感受,因此引入了以下几种指标,用于效仿从人眼观察图像相似的感受。
SSIM
参考自知乎
SSIM分为三个部分组成,分别是图像的亮度luminance、对比度contrast以及结构structure。这三个部分分别用μ x , μ y \mu_x,\mu_y μ x , μ y 表示,σ x 2 , σ y 2 \sigma_x^2,\sigma_y^2 σ x 2 , σ y 2 表示,σ x y \sigma_{xy} σ x y 表示,即:
l ( x , y ) = μ x μ y + C 1 μ x 2 + μ y 2 + C 1 c ( x , y ) = σ x σ y + C 2 σ x 2 + σ y 2 + C 2 s ( x , y ) = σ x y + C 3 σ x σ y + C 3 \begin{aligned}
l(x,y)=\frac{\mu_x\mu_y+C_1}{\mu_x^2+\mu_y^2+C_1}\\
c(x,y)=\frac{\sigma_x\sigma_y+C_2}{\sigma_x^2+\sigma_y^2+C_2}\\
s(x,y)=\frac{\sigma_{xy}+C_3}{\sigma_x\sigma_y+C_3}
\end{aligned}
l ( x , y ) = μ x 2 + μ y 2 + C 1 μ x μ y + C 1 c ( x , y ) = σ x 2 + σ y 2 + C 2 σ x σ y + C 2 s ( x , y ) = σ x σ y + C 3 σ x y + C 3
因此,SSIM的定义为:
S S I M ( x , y ) = l ( x , y ) α c ( x , y ) β s ( x , y ) γ \mathrm{SSIM}(x,y)=l(x,y)^{\alpha}c(x,y)^{\beta}s(x,y)^{\gamma}
SSIM ( x , y ) = l ( x , y ) α c ( x , y ) β s ( x , y ) γ
实际中常取C 3 = C 2 / 2 C_3=C_2/2 C 3 = C 2 /2 ,因此上式可以进一步化简,此处不再赘述。
MS-SSIM
本指标又简称为MSSIM,是SSIM的改进版,特别之处在于SSIM使用了多次下采样,每次下采样图像尺寸便缩小一半,在下采样之前计算两幅图像的对比度相似度和结构相似度,经过M − 1 M-1 M − 1 次下采样得到缩小为2 M − 1 2^{M-1} 2 M − 1 大小的图像,用该图像计算亮度相似度,并将三个相似度按幂权重归一化乘积起来,即有:
FSIM
FSIM指标与以上两种基于“结构相似性度量”Structure Similarity Measurement 的指标不同,本指标“首次”引入了特征的概念,使用手工设计的两个正交滤波器对分别对图像作一次处理,然后计算两个处理后图像的相位一致性值PC :
P C ( x ) = ∑ j E θ ( j ) ( x ) ϵ + ∑ n ∑ j A n , θ ( j ) ( x ) PC(\mathbf{x})=\frac{\sum_jE_{\theta(j)}(\mathbf{x})}{\epsilon+\sum_n\sum_jA_{n,\theta(j)}(\mathbf{x})}
PC ( x ) = ϵ + ∑ n ∑ j A n , θ ( j ) ( x ) ∑ j E θ ( j ) ( x )
其中的A A A 是在各个像素位置x \mathbf{x} x 处的,两个滤波器各自滤波结果的独立和(即平方和再开根号),E E E 则是将同一个尺度Scale 下全部滤波结果的先作相关和再作独立和(即先求和,然后再平方再开根号)。
图像的梯度幅度Gradient Magnitude 计算,作者在原始文献中提供了三种正交算子,分别是Sobel、Prewitt和Scharr算子,使用其中任意一种算子对x , y x,y x , y 两个方向上计算其偏导数,然后逐像素叠加即可得到在每个像素点处的梯度幅度,称为G = G x 2 + G y 2 G=\sqrt{G_x^2+G^2_y} G = G x 2 + G y 2 。
计算FSIM指标需要通过PC和GM,分为以下三步进行:
S P C ( x ) = 2 P C 1 ( x ) ⋅ P C 2 ( x ) + T 1 P C 1 2 ( x ) + P C 2 2 ( x ) + T 1 S G ( x ) = 2 G 1 ( x ) ⋅ G 2 ( x ) + T 2 G 1 2 ( x ) + G 2 2 ( x ) + T 2 S L ( x ) = S P C α ( x ) S G β ( x ) \begin{aligned}
S_{PC}(\mathbf{x})&=\frac{2PC_1(\mathbf{x})\cdot PC_2(\mathbf{x})+T_1}{PC_1^2(\mathbf{x})+ PC_2^2(\mathbf{x})+T_1}\\
S_{G}(\mathbf{x})&=\frac{2G_1(\mathbf{x})\cdot G_2(\mathbf{x})+T_2}{G_1^2(\mathbf{x})+ G_2^2(\mathbf{x})+T_2}\\
S_L(\mathbf{x})&=S_{PC}^\alpha(\mathbf{x})S_G^\beta(\mathbf{x})
\end{aligned}
S PC ( x ) S G ( x ) S L ( x ) = P C 1 2 ( x ) + P C 2 2 ( x ) + T 1 2 P C 1 ( x ) ⋅ P C 2 ( x ) + T 1 = G 1 2 ( x ) + G 2 2 ( x ) + T 2 2 G 1 ( x ) ⋅ G 2 ( x ) + T 2 = S PC α ( x ) S G β ( x )
最终计算FSIM的公式即遍历整个位矢x \mathbf{x} x 的取值空间(整个图像域)上的平均,即:
F S I M = ∑ x ∈ Ω S L ( x ) ⋅ P C m ( x ) ∑ x ∈ Ω P C m x \mathrm{FSIM}=\frac{\sum_{x\in\Omega}S_L(\mathbf{x})\cdot PC_m(\mathbf{x})}{\sum_{x\in\Omega}PC_m{\mathbf{x}}}
FSIM = ∑ x ∈ Ω P C m x ∑ x ∈ Ω S L ( x ) ⋅ P C m ( x )
实际上对图像相似度评价的指标还有好多种,像HDR-VDP等等,最新的文献The Unreasonable Effectiveness of Deep Features as a Perceptual Metric提出了一种基于特征的新思路,即不用单独引入外部评价方法,将参考图像与图像分别通过相同的网络(往往就是待训练的生成式网络),计算其每一层网络的输出特征图各自对应点的加权欧氏距离和,即:
d ( x ~ , x ) = ∑ l 1 H l W l ∑ h , w ∣ ∣ w l ⊙ ( y ~ h w l − y h w l ) ∣ ∣ 2 2 d(\tilde{x},x)=\sum_l\frac{1}{H_lW_l}\sum_{h,w}||w_l\odot (\tilde{y}^l_{hw}-y^l_{hw})||_2^2
d ( x ~ , x ) = l ∑ H l W l 1 h , w ∑ ∣∣ w l ⊙ ( y ~ h w l − y h w l ) ∣ ∣ 2 2
这里,l l l 是代表第l l l 层网络输出的结果,w l w_l w l 是各一层网络不同的权重,这个权重可以层与层之间不同也可以相同,甚至可以同一层内也不同,当权重恒等于1时,该距离与计算图像的余弦距离相同。
二分图匹配算法
解决二分图中最优权匹配问题的算法,最著名的莫过于匈牙利算法,在最早提出解决方案的论文[1] 中,二分图匹配问题被称为是人事安排 问题,即描述为:现有甲、乙、丙和丁四个人,以及A、B、C、D四件不同的工作,其中根据每个人是否有资格参与对应的工作,列出下表:
A
B
C
D
甲
是
是
是
否
乙
否
否
是
是
丙
否
否
否
是
丁
否
否
否
是
如果用资格矩阵 表示上述表格,可得:
Q = [ 1 1 1 0 0 0 1 1 0 0 0 1 0 0 0 1 ] \mathbf{Q}=\begin{bmatrix}
1 & 1 & 1 & 0 \\
0 & 0 & 1 & 1 \\
0 & 0 & 0 & 1 \\
0 & 0 & 0 & 1
\end{bmatrix}
Q = 1 0 0 0 1 0 0 0 1 1 0 0 0 1 1 1
当前条件是,每件工作最多只能让一个人去执行,问题是:如何安排人事,使得被分配出去的工作数量达到最大?
用矩阵的话说就是:在保证只能从某一行或者某一列挑选的前提下,能够从资格矩阵中挑出1的最大数量?
一个简单的解法
按照论文的观点,很容易从没有被分配的工作中加入分配的人员,我们因此首先对两个“多面手”随便分配一个工作,如对甲分配C,对乙分配D,记分配矩阵修改为:
A = [ 1 1 1 ∗ 0 0 0 1 1 ∗ 0 0 0 1 0 0 0 1 ] \mathbf{A}=\begin{bmatrix}
1 & 1 & 1* & 0 \\
0 & 0 & 1 & 1* \\
0 & 0 & 0 & 1 \\
0 & 0 & 0 & 1
\end{bmatrix}
A = 1 0 0 0 1 0 0 0 1 ∗ 1 0 0 0 1 ∗ 1 1
其中"*"号表示的是该项工作被分配。显然该分配方案并不是最优分配,因为只需要将甲从工作C调整至A,将乙从工作D调整至C,就会多出一个空余的工作D,由丙和丁两人任意分配。
能够将工作分配至当前手上尚未有工作的人员的分配方案不是最优方案
上述结论是显然的,其否命题则是:无论如何调整当前人事安排,都不能将任意尚未有工作的人员分配一个工作,则当前分配方案取得最优。
二分图问题
更广义上讲,现给定一个R n × n \mathbb{R}^{n\times n} R n × n 的正整数矩阵,要求找到一个行(或者列)序号的排列方式P \mathbf{P} P ,使得从每一行(列)中选取一个数r i , j i r_{i,j_i} r i , j i 出来,这些数的和最大,矩阵式的表示更加直观,来自于维基百科 :
arg max P ∑ i = 0 n r i , j i = arg min P t r ( P C ) \argmax_{\mathbf{P}}\sum_{i=0}^n r_{i,j_i}=\argmin_{\mathbf{P}}\mathrm{tr}({\mathbf{PC}})
P arg max i = 0 ∑ n r i , j i = P arg min tr ( PC )
其中,P \mathbf{P} P 是初等变换阵permutation matrix 。参考自@Jinzhong Xu的博客 和CSDN博客 后,才算是正式弄懂了该算法。用匈牙利算法解决二分图匹配问题的关键是找到矩阵中含0行列的最小划线覆盖 ,下例将演示完全的匹配过程。
示例
现有成本矩阵如下,其中行代表人员,列代表工作,目标是在保证工作都被完成的前提下,取得最小的成本。
[ 16 12 38 24 42 23 43 63 33 54 15 25 42 25 27 37 ] \begin{bmatrix}
16 & 12 & 38 & 24 \\
42 & 23 & 43 & 63 \\
33 & 54 & 15 & 25 \\
42 & 25 & 27 & 37
\end{bmatrix}
16 42 33 42 12 23 54 25 38 43 15 27 24 63 25 37
用矩阵表述该问题是,如何找到一种分配方案(对应矩阵的初等变换),使得变换后矩阵的迹最小?
找到各行矩阵的最小值,并用对应行减去(这一步称为归约 ):
r o w min = [ 12 23 15 25 ] ⟹ [ 4 0 26 12 19 0 20 40 18 39 0 10 17 0 2 12 ] ⟹ c o l min = [ 4 0 0 10 ] ⟹ [ 0 0 26 2 15 0 20 30 14 39 0 0 13 0 2 2 ] \mathrm{row}\min = \begin{bmatrix}
12\\23\\15\\25
\end{bmatrix}\implies
\begin{bmatrix}
4 & 0 & 26 & 12 \\
19 & 0 & 20 & 40 \\
18 & 39 & 0 & 10 \\
17 & 0 & 2 & 12
\end{bmatrix}\implies\mathrm{col}\min = \begin{bmatrix}
4&0&0&10
\end{bmatrix}\implies
\begin{bmatrix}
0 & 0 & 26 & 2 \\
15 & 0 & 20 & 30 \\
14 & 39 & 0 & 0 \\
13 & 0 & 2 & 2
\end{bmatrix}
row min = 12 23 15 25 ⟹ 4 19 18 17 0 0 39 0 26 20 0 2 12 40 10 12 ⟹ col min = [ 4 0 0 10 ] ⟹ 0 15 14 13 0 0 39 0 26 20 0 2 2 30 0 2
用最少行、列直线覆盖当前全部的零,统计当前的划线覆盖数为3,小于当前成本矩阵的最小维度4,因此需要继续归约。
[ − + − − 15 ∣ 20 30 − + − − 13 ∣ 2 2 ] \begin{bmatrix}
- & + & - & - \\
15 & | & 20 & 30 \\
- & + & - & - \\
13 & | & 2 & 2
\end{bmatrix}
− 15 − 13 + ∣ + ∣ − 20 − 2 − 30 − 2
对于没有被划线覆盖的元素,找到其中最小的值(这里是2)。用未被覆盖 的元素减去该最小值,被划线的部分保持不变 :
[ − + − − 13 ∣ 18 28 − + − − 11 ∣ 0 0 ] \begin{bmatrix}
- & + & - & - \\
13 & | & 18 & 28 \\
- & + & - & - \\
11 & | & 0 & 0
\end{bmatrix}
− 13 − 11 + ∣ + ∣ − 18 − 0 − 28 − 0
再划线并查看划线数是否等于最小维度,此时划线结果为4,已经等于最小维度,划线步骤停止:
[ − + − − 13 ∣ 18 28 − + − − − + − − ] \begin{bmatrix}
- & + & - & - \\
13 & | & 18 & 28 \\
- & + & - & - \\
- & + & - & -
\end{bmatrix}
− 13 − − + ∣ + + − 18 − − − 28 − −
从每行零数量最少的矩阵开始迭代,将当前行的0标记为T 0 T_0 T 0 ,然后将T 0 T_0 T 0 所在的列中的其他零标记为S 0 S_0 S 0 ,如下图示:
[ 0 0 26 2 13 0 18 28 14 39 0 0 11 0 0 0 ] ⟹ [ 0 S 0 26 2 13 T 0 18 28 14 39 0 0 11 S 0 0 0 ] (*) \begin{bmatrix}
0 & 0 & 26 & 2 \\
13 & 0 & 18 & 28 \\
14 & 39 & 0 & 0 \\
11 & 0 & 0 & 0
\end{bmatrix}\tag{*}\implies\begin{bmatrix}
0 & \blue{S_0} & 26 & 2 \\
13 & \red{T_0} & 18 & 28 \\
14 & 39 & 0 & 0 \\
11 & \blue{S_0} & 0 & 0
\end{bmatrix}
0 13 14 11 0 0 39 0 26 18 0 0 2 28 0 0 ⟹ 0 13 14 11 S 0 T 0 39 S 0 26 18 0 0 2 28 0 0 ( * )
将T 0 , S 0 T_0,S_0 T 0 , S 0 不再视为零,重复以上步骤直到全部的零都被标记,统计其中的T 0 \red{T_0} T 0 零个数为4,已经等于当前最小维度数了,此步骤结束后将停止迭代:
[ T 0 S 0 26 2 13 T 0 18 28 14 39 0 0 11 S 0 0 0 ] ⟹ [ T 0 S 0 26 2 13 T 0 18 28 14 39 T 0 S 0 11 S 0 S 0 0 ] ⟹ [ T 0 S 0 26 2 13 T 0 18 28 14 39 T 0 S 0 11 S 0 S 0 T 0 ] \begin{bmatrix}
\red{T_0} & \blue{S_0} & 26 & 2 \\
13 & \red{T_0} & 18 & 28 \\
14 & 39 & 0 & 0 \\
11 & \blue{S_0} & 0 & 0
\end{bmatrix}\implies\begin{bmatrix}
\red{T_0} & \blue{S_0} & 26 & 2 \\
13 & \red{T_0} & 18 & 28 \\
14 & 39 & \red{T_0} & \blue{S_0}\\
11 & \blue{S_0} & \blue{S_0} & 0
\end{bmatrix}\implies\begin{bmatrix}
\red{T_0} & \blue{S_0} & 26 & 2 \\
13 & \red{T_0} & 18 & 28 \\
14 & 39 & \red{T_0} & \blue{S_0} \\
11 & \blue{S_0} & \blue{S_0} & \red{T_0}
\end{bmatrix}
T 0 13 14 11 S 0 T 0 39 S 0 26 18 0 0 2 28 0 0 ⟹ T 0 13 14 11 S 0 T 0 39 S 0 26 18 T 0 S 0 2 28 S 0 0 ⟹ T 0 13 14 11 S 0 T 0 39 S 0 26 18 T 0 S 0 2 28 S 0 T 0
输出在T 0 \red{T_0} T 0 位置处的原始成本,即为最优安排:
[ 16 12 38 24 42 23 43 63 33 54 15 25 42 25 27 37 ] \begin{bmatrix}
\red{16} & 12 & 38 & 24 \\
42 & \red{23} & 43 & 63 \\
33 & 54 & \red{15} & 25 \\
42 & 25 & 27 & \red{37}
\end{bmatrix}
16 42 33 42 12 23 54 25 38 43 15 27 24 63 25 37
当前问题的最优成本为16 + 23 + 15 + 37 = 91 16+23+15+37=91 16 + 23 + 15 + 37 = 91 ,即人员1做工作1,人员2做工作2,人员3做工作3,人员4做工作4。可以验证,该方法确实是最优的。
当划线数等于最小维度数时,就一定能够保证有解存在,否则,需要反复执行步骤3
算法实现
作为非常经典的算法,匈牙利算法早已被C/C++、Python等语言实现过,这里以Wiki百科 上提供的源代码为例:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 template <class T > vector<T> hungarian (const vector<vector<T>> &C) { const int J = (int )size (C), W = (int )size (C[0 ]); assert (J <= W); vector<int > job (W + 1 , -1 ) ; vector<T> h (W) ; vector<T> answers; T ans_cur = 0 ; const T inf = numeric_limits<T>::max (); for (int j_cur = 0 ; j_cur < J; ++j_cur) { int w_cur = W; job[w_cur] = j_cur; vector<T> dist (W + 1 , inf) ; dist[W] = 0 ; vector<bool > vis (W + 1 ) ; vector<int > prv (W + 1 , -1 ) ; while (job[w_cur] != -1 ) { T min_dist = inf; vis[w_cur] = true ; int w_next = -1 ; for (int w = 0 ; w < W; ++w) { if (!vis[w]) { T edge = C[job[w_cur]][w] - h[w]; if (w_cur != W) { edge -= C[job[w_cur]][w_cur] - h[w_cur]; assert (edge >= 0 ); } if (ckmin (dist[w], dist[w_cur] + edge)) prv[w] = w_cur; if (ckmin (min_dist, dist[w])) w_next = w; } } w_cur = w_next; } for (int w = 0 ; w < W; ++w) { ckmin (dist[w], dist[w_cur]); h[w] += dist[w]; } ans_cur += h[w_cur]; for (int w; w_cur != W; w_cur = w) job[w_cur] = job[w = prv[w_cur]]; answers.push_back (ans_cur); } return answers; }
对于Python,可以直接调用以下API:
1 scipy.optimize.linear_sum_assignment
亦有更精细的如对稀疏矩阵特别优化后的算法,仍然在scipy
库中可以直接使用。
参考文献
[1] Kuhn H. W. .The hungarian method for the assignment Problem[J/OL].Nav. Res. Logist. Q.,1955,2(1-2):83-97