调参宝典 - 个人主页

前提

1完成了稳定解析和数据清洗
2训练和预测通路构建完成
3选择了合适的评估方式

模型结构选择

1使用历史模型结构
2使用相似问题的论文的模型

优化器选择

1使用相似问题的优化器
2有更多超参数的优化器调优更复杂
3初始阶段通常选择简单的优化器SGD或者Adam
4Adam和NAdam比SGD更通用

Adam工作原理

a计算梯度一级矩估计: 计算上一次梯度和当前梯度的加权平均
b计算梯度平方的一阶矩估计，计算上一次梯度平方和当前梯度平方的加权平均
c计算偏差修正后的梯度一阶矩估计和梯度平方一阶矩估计
5调参重要性lr>b1>e>b2

batchsize

理论上机器承受的最大batch
1大batch更容易过拟合需要更强大的正则，小batch方差较大

Trick

1 模型参数移动平均
2 对抗学习
3 Celoss变为Smooth损失

FEATURED TAGS

c语言 c++ 面向对象指针容器 python 函数数据结构回归损失函数神经网络机器学习似然函数极大似然标准化深度学习卷积网络参数估计 beta分布数据处理 gradio 模型工程化网页模型加速工具 c++实现变量占位符 tensorflow 线性回归学习tensorflow HMM RNN 强化学习 LSTM pandas 不定长序列损失 pytorch 目标检测 RPN 非极大值抑制 ROIpooling VGG16 Transformer BERT Python 装饰器方法 Pytorch FPN 图像分类 CNN 多模态生成 GPT Tranformer 生成模型 audio

前提