我的主页

DIT

论文摘要 没啥新东西,就是VIT加上扩散模型理论那套东西,模型代码很整洁,带有通用性质。 VIT更注重图像的整体结构,对具体细节不关心用毫无创新来形容不为过吧 创新点 几个技术整合在一起 1、输入 数据输入vae编码的特征 类似LDM的输入,然后通过patch操作将拉平 2、CFG 条件输入和LDM一样先对类别做embedding然后加上时间步长特征输入 3、条件注入 在DIT模块中去掉标准...

OT

概念 两个分布之间信息交互,从一个分布转为另一个分布,有无数种可能情况,通过代价函数筛选最优的转换方式 常见应用生成式算法,图像生成 从一个分布到另一个分布 基础知识 KL距离 衡量一个事物的信息量用熵,一件事情如果必然发生,那本身信息量为0 如果一件事发生概率非常小,那信息量 会很大,母猪飞上树信息量确实比较大,所以概率越大信息量越小概率越小信息量越大。h(x)表示信息熵 \[h(x...

LLAVA多模态理解

论文摘要 创新点 技术细节 代码解读 实验

SD模型

SD模型使用和调参 SD模型原理安装部署整体简介。 https://zhuanlan.zhihu.com/p/643420260 SDwebui部署 https://github.com/AUTOMATIC1111/stable-diffusion-webui/tree/release_candidate https://www.jianshu.com/p/7261e20a0712 下...

论文阅读-语言模型的结构和方法

模型结构 模型有Eencode和Decode结构还有两种一起用的,到底哪种模型结构最好用呢 论文:Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth 论文:BLOOM: A 176B-Parameter Open-Access Multilingual Langua...

论文阅读-ImageBind

模型结构 1、6个Transformer 分别对应六种模态, 2、每个模态有个head 3、对每种模态输出加一个参数,这个参数控制占比 4、核心思想是对齐模态都和图像模态对齐,图片和文本模态使用CLIP对模型进行初始化 其他模态和图像进行对齐训练,所用模态都和图像模态对齐,这样就对齐了所有模态 video模态 使用clip初始化,vit模型,不同的是输入的是video 使用3d卷积...

大模型训练

Pytorch 使用常规1.12以后的pytoch中的FSDP进行训练 https://arxiv.org/pdf/1811.06965.pdf 论文:GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism 训练框架fairscale https://cloud.tencent.com/developer/article/1...

论文阅读-LLAMA

说明 模型结构简单训练方式简单,数据简单,总之就是简单到不能再简单 数据处理 使用fastText过滤文档,fastText由CBOW而来 CBOW是连续词袋模型,简单理解就是一次词embedding,原理是用滑窗内一个词两边的词来表示中间词 模型结构就是一个dnn cbow的输入是目标词两边的词这里的C表示目标词两边C个词,每个词用onehot表示,每个与参数矩阵乘 之后求均值得到隐向量...

论文阅读-ChatGPT

说明 据说chatgpt 是指示学习版本的InstructGPT 这篇论文介绍了两个东西 一个是强化学习的数据 一个是GPT3模型, 强化学习数据 提示学习和指示学习是至关重要的策略,提示学习是生成式的数据 实例:”中国的首都是**” 补全空白的位置,锻炼的模型的生成能力 指示学习是对模型发出指令,模型需要理解指令并做出解答,锻炼的 是模型的理解能力,实例:”翻译 我是中国人” 模型首先要...

论文阅读-BEITv3

多模态大模型 延用了Beitv2的训练方式不通点在于 1、多模态 同时输入文本图像的图文对 建设一个专家系统,每个模态对应了一个专家系统 起始就是每个模态对应一下全连接,训练方式除了v2版本的还有一些模态匹配的 任务,综合起来就是mask data modeling 还原被mask的部分 预训练 论文证明mask data modeling 才是预训练任务最正确的方式 对比学习预训练对ba...