我的主页

论文阅读-Tranformer

Transformer 出自google的经典论文 Attention is All YouNeed 除了未来5年内所有的技术都是在这个技术基础之上实现的 结构之简单性能之强大可以说牛逼 介绍一下这个结构 Encode 首先embedding不用多介绍主要是word embedding 和 位置embedding 计算求和后输出输出到attention QKV 交互 Q是索引,表示一句...

论文阅读-GPT3

论文核心:0样本训练或者少样本训练 要理解one-shot 和 zero-shot训练 数据 提示学习,构建提示 https://www.promptingguide.ai/zh/introduction/examples 模型 模型结构和12没啥区别按照参数初始化模型600G有点大,搞不动 学习一下FSDP应该能训练起来 具体细节的模型调整真的不知道了论文也没说比如从GPT1到GPT2 ...

论文阅读-BEITv2

模型流程 1、训练图像编码器 常见的Image token 有三种方式 grid feature 这种就是取卷积后的特征图,每个点就是个token region feature 这个比较简单就是 目标检测的结果,框出来之后的特征作为token patch feature 直接切图片然后提取特征 VQ-VAE 注意 视觉任务中一般用相对位置编码 论文提出的观点和使用的方法 1、block...

论文阅读-CLIP

噪声对比损失,NCE (triple Loss) 一个batchszie 输入10个图片,这是个图片相互比较,1个正样本 9个负样本 使用Adam训练 3学习率衰减 cosine schedule 结构 文本使用的是因果mask 图像部分使用的pre—LN 使用的最大index_id 起始就是最后一个位置 因为在数据中eot token在在表的最后一个位置,也就是最大位置,等价于取-1...

论文阅读 分词算法


论文阅读-MLP

使用全链接去处理图像,思想是将图像分成好多片,然后每一片输入变成一个向量输入全链接, 巧妙的使用维度变化,就能实现切分等等的操作

论文阅读-BEITv2

基础 1、贝叶斯公式 2、高斯分布求和 3、KL散度 原理 前向过程 在前向过程中,后一时刻分布由前一时刻加噪得到的

论文阅读-RepVgg

RepVGG 使用vgg框架,将多分枝网络变成单分支网络,减少计算,resnet属于多分枝, 实现过程就是将卷积进行合并计算,先分析renet的结果,然后通过何合并卷积 计算的操作代替。非常有意思的思想

论文阅读-VIT

模型 开始就是对图像进行切分,然后加上位置信息,进入到Transformer 约简单的思路约具有颠覆性, https://github.com/lucidrains/vit-pytorch

论文阅读-GPT2

模型 GPT1 和2模型结构没啥变化 提除了一个概念:所有有监督任务都是无监督任务的子集 然后加了数据加大了模型结构 没了 主要区别 将layernorm放到每个sub-block之前;在最终自注意块之后添加了额外的层标准化