我的主页

论文阅读-图像手性

论文:Visual Chirality 思想 讨论了在图像增强中使用的镜像反转数据增强,表面上看这种没啥影响 实际上影响比较大, 手性(Chirality)代表着单个图片的翻转不对称性,而视觉手性(Visual Chirality) 则是针对图像分布(Image Distribution)所定义的翻转不对称性 在计算机视觉的研究中,我们常把这个世界视为”翻转不变“的,镜像翻转因而 是一个常...

论文阅读-双塔模型

模型 Embedding-based Retrieval in Facebook Search 两个模型输出两个结果 Triplet loss 一个模型输入query 另一个模型输入 正负样本doc 数据构建有门道 正负样本的构建 负样本有两种选择 1从召回结果中选择未点击的属于hard-case 2随机采样一个数据, 直观上hard-case作为结果似乎训练的模型更优秀,但是实际上...

论文阅读-BERT

模型 区别与GPT单向的局限性,有些任务需要通读全文才能理解 GPT不能通读全文。具体的操作就是去掉MASK部分 提出了两个任务 1、MLM 任务 掩码语言模型简单说就是一句话中遮住一些词或者置空或者用其他文本替换 然后目标是对其还原 2、匹配任务,两句文本是否是前后句的关系,使用cls训练 模型结构炒鸡简单和GPT一样只不过mask矩阵是paddmask+遮挡位置的mask 训练任务略有不同

论文阅读-GPT

模型 模型结构和数据相对比较简单,核心在于mask部分 mask表示当前字只和它前面的字有关系同时预测的也是下一个字 例如 ‘’’ 我是你爹 “是” 这个字与我字相关 “你” 字和”我是”两个字有关 ‘’’ 所以mask才是一个与token长度一样三角矩阵,用这个矩阵是mask掉关系矩阵 中的某些关系 其他的就是Transformer结构都一样 训练数据构建 比较简单的数据 比如原始的一句...

论文阅读-变分自编码器

模型 变分自编码器,存在一个分布这个分布可以通过某种变化,变为训练集上的数据 变分意识就是变化分布 是一种全新的图像输入变为token的方式 耿贝尔分布 一个人的心跳一天统计10次,取最大值作为一天的心跳,因为每次心跳是随机值所 以每天心跳也是随机值每天的心跳服从的是耿贝尔分布在模型中argmax、采样都是 不可导的当模型中间有这类函数时,不能进行求导,导致无法更新参数。如果想要求 导可以...

论文阅读 数据增强


经典视频理解

VLAD I3D C3D SlowFast

调参宝典

前提 1完成了稳定解析和数据清洗 2训练和预测通路构建完成 3选择了合适的评估方式 模型结构选择 1使用历史模型结构 2使用相似问题的论文的模型 优化器选择 1使用相似问题的优化器 2有更多超参数的优化器调优更复杂 3初始阶段通常选择简单的优化器SGD或者Adam 4Adam和NAdam比SGD更通用 Adam工作原理 a计算梯度一级矩估计: 计算上一次梯度和当前梯度的加权平均 b计算梯...

Loss

Focla loss 从交叉熵说起 y表示标签值 y_表示模型输出值 网络的输出只有一个,此时输入是正样本的时候 希望输出y比较大 Log(y)就会接近0 损失就很小,当此时的输入是负样本的时候, 希望输出y比较小 此时log(1-y)也会很小。所以完全符合我们的预期 正样本希望输出比较大负样本希望输出比较小, 当正样本过来时输出y非常大时损失非常小 此时非常容易确定是正样本, 当输入...

DeepLab

DeepLab FCN 全卷积网络 FPN 金字塔网络 空洞卷积 通过空洞率控制 1、对特征图使用不同空洞率的卷积 2、cat结果 3、上采样预测 实例分割的目标是将目标从图片上在像素级别上分割开,主要有两个创新,一个是空洞卷积一个是FPN, 这两个可以实现实例分割,分割的损失函数是交叉熵损失,是像素级别的交叉熵 上采样就是用插值将卷积后的图像恢复到输入大小。在损失计算的时候,input是...