论文阅读-ChatGPT - 个人主页

说明

据说chatgpt 是指示学习版本的InstructGPT
这篇论文介绍了两个东西一个是强化学习的数据
一个是GPT3模型，

强化学习数据

提示学习和指示学习是至关重要的策略，提示学习是生成式的数据
实例：”中国的首都是**” 补全空白的位置，锻炼的模型的生成能力
指示学习是对模型发出指令，模型需要理解指令并做出解答，锻炼的
是模型的理解能力，实例：”翻译我是中国人” 模型首先要理解我们
的目标是什么，然后给出正确的解答
这里GPT训练这两种数据都用到了。训练数据主要包括

有监督数据

这里的数据是训练GPT3的数据也就是提示学习的数据

奖励模型学习

收集有监督的数据训练完后的GPT3 生成的结果GPT模型可以生成多个结果
主要原因在于生成结果取值时不是取的最优值而是在最优的几个里随机取一个
对于生成的一系列结果标准人员标注出这一些列结果的排名
继续训练，训来拿的目标是标注人员最喜欢的结果

模型结构

GPT3模型结构和GPT1 GPT2一样除了参数规模上有变化层数96成 head 96 词典5w embedding 1.2w
按照这个参数保存了一下模型600G 模型都无法加载到GPU不过1.12版以后的pytorch可以使用
全新的训练算法实现训练

FEATURED TAGS

c语言 c++ 面向对象指针容器 python 函数数据结构回归损失函数神经网络机器学习似然函数极大似然标准化深度学习卷积网络参数估计 beta分布数据处理 gradio 模型工程化网页模型加速工具 c++实现变量占位符 tensorflow 线性回归学习tensorflow HMM RNN 强化学习 LSTM pandas 不定长序列损失 pytorch 目标检测 RPN 非极大值抑制 ROIpooling VGG16 Transformer BERT Python 装饰器方法 Pytorch FPN 图像分类 CNN 多模态生成 GPT Tranformer 生成模型 audio

说明

强化学习数据

有监督数据

奖励模型学习

模型结构

CATALOG

FEATURED TAGS