图像分割的(包括语义分割,实例分割,以及全景分割),它们的评价指标都是一样的。常用的图像分割指标有:
- 像素准确率(Pixel Accuracy,PA)
- 类别平均像素准确率(Mean Pixel Accuracy,MPA)
- 交并比(Intersection over Union,IoU)
- 平均交并比(Mean Intersection over Union,MIoU)
- 加权交并比(Frequency Weighted Intersection over Union,FWIoU)
- GIoU(Generalized Intersection over Union)
- DIoU(Distance-IoU)
- CIoU (Complete IoU)
图像中共有$k+1$类,$P_{ii} $表示将第$i$类分成第$i$类的像素数量(正确分类的像素数量),$P_{ij}$表示将第$i$类分成第$j$类的像素数量(所有像素数量)
因此该比值表示正确分类的像素数量占总像素数量的比例。
-
优点:简单
-
缺点:如果图像中大面积是背景,而目标较小,即使将整个图片预测为背景,也会有很高的PA得分,因此该指标不适用于评价以小目标为主的图像分割效果。
计算每类各自分类的准确率,再取均值。
交并比表示的含义是模型对某一类别预测结果和真实值的交集与并集的比值。只不过对于目标检测而言是检测框和真实框之间的交并比,而对于图像分割而言是计算预测掩码和真实掩码之间的交并比。
通过IoU来评判两个图像的重合度具有以下几点优点:
- 具有尺度不变性;
- 满足非负性;
- 满足对称性;
但与此同时,IoU也有几点很明显的不足:
- 如果|A∩B|=0,也就是两个图像没有相交时,无法比较两个图像的距离远近;
- 无法体现两个图像到底是如何相交的。
$$ M I o U=\frac{1}{k+1} \sum {i=0}^k {\frac {p{ii}}{\sum_{j=0}^k p_{ij}+\sum {j=0}^k p{ji}-p_{ii}}} $$
单独考虑第i类:
分子:所有被正确分类为第i类的像素数Pii
分母:所有标签为第i类的像素数+所有被分类为第i类的像素数-被正确分类为第i类的像素数
即对每一个类别计算IoU,再对各类求均值。
FWIoU是MIoU的一种提升,根据每个类出现的频率为其设置权重。 $$ F W I o U={\frac{1}{\sum_{i=0}^{k}\sum_{j=0}^{k}p_{i j}}}\sum_{i=0}^{k}{\frac{p_{i i}}{\sum_{j=0}^{k}p_{i j}+\sum_{j=0}^{k}p_{j i}-p_{i i}}} $$
它能在更广义的层面上计算IoU,并解决刚才我们说的‘两个图像没有相交时,无法比较两个图像的距离远近’的问题。 $$ G I o U=I o U-{\frac{|C-(A\cup B)|}{C}} $$ 其中C可以为这两个图像的最小外接矩形的面积
由此我们可以看出:
- 原有IoU取值区间为[0,1],而GIoU的取值区间为[-1,1];在两个图像完全重叠时,IoU=GIoU=1,在两个图像距离无限远时,IoU=0而GIoU=-1。
- 与IoU只关注重叠区域不同,GIoU不仅关注重叠区域,还关注非重叠区域,这样能更好的的反映两个图像的重合度。
GIoU完善了图像重叠度的计算功能,但仍无法对图形距离以及长宽比的相似性进行很好的表示。
GIoU虽然解决了IoU的一些问题,但是它并不能直接反映预测框与目标框之间的距离,DIoU(Distance-IoU)即可解决这个问题,它将两个框之间的重叠度、距离、尺度都考虑了进来,DIoU的计算公式如下: $$ D I o U=I o U-{\frac{\rho^{2}(b,b^{g t})}{c^{2}}} $$ 其中b,$b^{gt}$分别代表两个框的中心点,ρ代表两个中心点之间的欧氏距离,C代表最小外接矩形的对角线,即如下图所示:
DIoU相较于其他两种计算方法的优点是:
- DIoU可直接最小化两个框之间的距离,所以作为损失函数的时候Loss收敛的更快;
- 在两个框完全上下排列或左右排列时,没有空白区域,此时GIoU几乎退化为了IoU,但是DIoU仍然有效。
此时我们可以认为,DIoU在完善图像重叠度的计算功能的基础上,实现了对图形距离的考量,但仍无法对图形长宽比的相似性进行很好的表示。
在DIoU的基础上,还能同时考虑两个矩形的长宽比,也就是形状的相似性,CIoU的计算公式为: $$ C I o U=I o U-{\frac{\rho^{2}(b,b^{g t})}{c^{2}}}-\alpha v $$ 其中α是权重函数,而v用来度量长宽比的相似性: $$ v=\frac{4}{\pi^{2}}(a r c t a n\frac{w^{g t}}{h^{g t}}-a r c t a n\frac{w}{h})^{2} $$
可以看出,CIoU就是在DIoU的基础上,增加了图像相似性的影响因子,因此可以更好的反映两个框之间的差异性。
我们还需要注意的一点是,在使用CIoU作为Loss的时候,v的梯度同样会参与反向传播的计算