论文阅读-GPT2 - 个人主页

模型

GPT1 和2模型结构没啥变化
提除了一个概念：所有有监督任务都是无监督任务的子集
然后加了数据加大了模型结构没了

主要区别

将layernorm放到每个sub-block之前；在最终自注意块之后添加了额外的层标准化
GPT2

FEATURED TAGS

c语言 c++ 面向对象指针容器 python 函数数据结构回归损失函数神经网络机器学习似然函数极大似然标准化深度学习卷积网络参数估计 beta分布数据处理 gradio 模型工程化网页模型加速工具 c++实现变量占位符 tensorflow 线性回归学习tensorflow HMM RNN 强化学习 LSTM pandas 不定长序列损失 pytorch 目标检测 RPN 非极大值抑制 ROIpooling VGG16 Transformer BERT Python 装饰器方法 Pytorch FPN 图像分类 CNN 多模态生成 GPT Tranformer 生成模型 audio

模型

主要区别

CATALOG

FEATURED TAGS