论文阅读-BEITv3

Posted by 高庆东 on December 7, 2022

多模态大模型

延用了Beitv2的训练方式不通点在于
1、多模态 同时输入文本图像的图文对 建设一个专家系统,每个模态对应了一个专家系统
起始就是每个模态对应一下全连接,训练方式除了v2版本的还有一些模态匹配的
任务,综合起来就是mask data modeling 还原被mask的部分 beitv3

预训练

论文证明mask data modeling 才是预训练任务最正确的方式
对比学习预训练对batchsize比较敏感,batch越大效果越好,但是
batch大对资源是一种考验

微软的骚操作

1、DeepNet
实现1000+层的Transformer训练,保持稳定
2、Foundation Transformers
对LN层进行调整
beitv3