说明
据说chatgpt 是指示学习版本的InstructGPT
这篇论文介绍了两个东西 一个是强化学习的数据
一个是GPT3模型,
强化学习数据
提示学习和指示学习是至关重要的策略,提示学习是生成式的数据
实例:”中国的首都是**” 补全空白的位置,锻炼的模型的生成能力
指示学习是对模型发出指令,模型需要理解指令并做出解答,锻炼的
是模型的理解能力,实例:”翻译 我是中国人” 模型首先要理解我们
的目标是什么,然后给出正确的解答
这里GPT训练这两种数据都用到了。
训练数据主要包括
有监督数据
这里的数据是训练GPT3的数据也就是提示学习的数据
奖励模型学习
收集有监督的数据训练完后的GPT3 生成的结果GPT模型可以生成多个结果
主要原因在于生成结果取值时不是取的最优值而是在最优的几个里随机取一个
对于生成的一系列结果标准人员标注出这一些列结果的排名
继续训练,训来拿的目标是标注人员最喜欢的结果
模型结构
GPT3模型结构和GPT1 GPT2一样除了参数规模上有变化
层数96成 head 96 词典5w embedding 1.2w
按照这个参数保存了一下模型600G
模型都无法加载到GPU不过1.12版以后的pytorch可以使用
全新的训练算法实现训练
FEATURED TAGS
c语言
c++
面向对象
指针
容器
python
函数
数据结构
回归
损失函数
神经网络
机器学习
似然函数
极大似然
标准化
深度学习
卷积网络
参数估计
beta分布
数据处理
gradio
模型工程化
网页
模型加速工具
c++实现
变量
占位符
tensorflow
线性回归
学习tensorflow
HMM
RNN
强化学习
LSTM
pandas
不定长序列损失
pytorch
目标检测
RPN
非极大值抑制
ROIpooling
VGG16
Transformer
BERT
Python
装饰器
方法
Pytorch
FPN
图像分类
CNN
多模态
生成
GPT
Tranformer
生成模型
audio