论文:Visual Chirality
思想
讨论了在图像增强中使用的镜像反转数据增强,表面上看这种没啥影响
实际上影响比较大,
手性(Chirality)代表着单个图片的翻转不对称性,而视觉手性(Visual Chirality)
则是针对图像分布(Image Distribution)所定义的翻转不对称性
在计算机视觉的研究中,我们常把这个世界视为”翻转不变“的,镜像翻转因而
是一个常规的数据增强方法。然而,当你翻转图片后,文字将被颠倒,左手变为右手
,而螺旋意大利面也将朝相反方向旋转。”
为了挑战了人们先前在计算机视觉中对于“翻转不变性”的假设,
「视觉手性」这篇文章通过自监督训练在几个不同视觉领域验证了“视觉手性”的存在。
「视觉手性」这篇文章利用了自监督学习(self-supervised learning)方法来训练卷积神经网络。
对于任何一个数据集,只需要将其原有的图片标记为“无翻转”,并将镜像翻转过的图片标记为“有翻转”,
即可训练神经网络识别镜像翻转这一二分类任务(binary classification)。同时我们可以根据神经网络在验证集(validation set)
的表现上来评估这一图像分布是否具备视觉手性:如果验证集上的精度要显著大于50%,我们便有充足的证据来证明视觉手性的存在。
作者在这篇文章中利用了ResNet-50作为基本的网络结构,并使用SGD方法来训练网络。基于先前自监督学习方法的启发,
作者将同一张图片的原图和翻转图放到了SGD的同一batch里(shared-batch training),加速了网络的训练。
为了了解神经网络学到了哪些视觉手性线索,作者利用了类激活映射(CAM:Class Activation Map)方法,
在原有图片上对于视觉手性敏感的区域进行了高亮。同时因为能造成视觉手性的现象有很多,
作者推出了一个简单的基于类激活映射的聚类方法:手性特征聚类(Chiral Feature Clustering)。