论文阅读-图像手性 - 个人主页

论文：Visual Chirality

思想

讨论了在图像增强中使用的镜像反转数据增强，表面上看这种没啥影响
实际上影响比较大，手性(Chirality)代表着单个图片的翻转不对称性，而视觉手性(Visual Chirality)
则是针对图像分布(Image Distribution)所定义的翻转不对称性
在计算机视觉的研究中，我们常把这个世界视为”翻转不变“的，镜像翻转因而
是一个常规的数据增强方法。然而，当你翻转图片后，文字将被颠倒，左手变为右手
，而螺旋意大利面也将朝相反方向旋转。”

为了挑战了人们先前在计算机视觉中对于“翻转不变性”的假设，
「视觉手性」这篇文章通过自监督训练在几个不同视觉领域验证了“视觉手性”的存在。
「视觉手性」这篇文章利用了自监督学习(self-supervised learning)方法来训练卷积神经网络。
对于任何一个数据集，只需要将其原有的图片标记为“无翻转”，并将镜像翻转过的图片标记为“有翻转”，
即可训练神经网络识别镜像翻转这一二分类任务(binary classification)。同时我们可以根据神经网络在验证集(validation set)
的表现上来评估这一图像分布是否具备视觉手性：如果验证集上的精度要显著大于50%，我们便有充足的证据来证明视觉手性的存在。
作者在这篇文章中利用了ResNet-50作为基本的网络结构，并使用SGD方法来训练网络。基于先前自监督学习方法的启发，
作者将同一张图片的原图和翻转图放到了SGD的同一batch里(shared-batch training)，加速了网络的训练。

为了了解神经网络学到了哪些视觉手性线索，作者利用了类激活映射(CAM：Class Activation Map)方法，
在原有图片上对于视觉手性敏感的区域进行了高亮。同时因为能造成视觉手性的现象有很多，
作者推出了一个简单的基于类激活映射的聚类方法：手性特征聚类(Chiral Feature Clustering)。

FEATURED TAGS

c语言 c++ 面向对象指针容器 python 函数数据结构回归损失函数神经网络机器学习似然函数极大似然标准化深度学习卷积网络参数估计 beta分布数据处理 gradio 模型工程化网页模型加速工具 c++实现变量占位符 tensorflow 线性回归学习tensorflow HMM RNN 强化学习 LSTM pandas 不定长序列损失 pytorch 目标检测 RPN 非极大值抑制 ROIpooling VGG16 Transformer BERT Python 装饰器方法 Pytorch FPN 图像分类 CNN 多模态生成 GPT Tranformer 生成模型 audio

思想

CATALOG

FEATURED TAGS