我的主页

模型工具

工程化框架 https://blog.51cto.com/u_15485092/6223566。 exp import gradio as gr import os def process(*x0): return x0 block = gr.Blocks() with block: with gr.Row(): gr.Markdown("## Sty...

模型评估问题

偏差方差问题 偏差:表示针对现有数据进行拟合拟合如果模型简单拟合的效果会不好 出现高偏差的现象 方差:模型对数据已经拟合的相当好了,在泛化上出现了高方差的现象 高偏差代表欠拟合高方差带边过拟合 人们往往看到的只是现有数据,所以对现有数据进行的操作时减小偏差 妄图通过有限数据来创造无限数据情况下的模型 会产生一个矛盾曲线 两条曲线会随着模型的复杂度变化而出现相反的变化趋势 ...

算法应用中的细节问题(1)

激活函数 tanh比sigmoid更长梯度更大 relu函数有大梯度通过时可能使神经元死掉 数据集 对于初始的模型数据很少的情况下可以人为增加数据 对于初始模型数据只要存在一点点的差别都会人为是完全不同的数据 最主要的是去掉不需要的数据 (旋转,缩放 裁剪,平移) 样本特征的相关性除了政府相关外还有其他的复杂的相关性 协方差举证:对角线是自身的方差,其他事两两的协方...

幸存者偏差与纳什均衡

幸存者偏差 NO.1 比尔盖茨 乔布斯 扎克伯格 他们都是成功者他们有个共同特征就是都 是从大学退学了,那么我们能说从大学退学是成功的要素吗?我们没 有考虑到那些从大学退学了但没有成功的人。所以从大学退学作为成 功的要素是有偏差的。 NO.2 梅西c罗的身家都贼鸡儿高,动辄千万甚至上亿,我说:“是我运气不好 ,如果我当年选择去踢球也能和他们一样”这句话也表示了幸存者的心态 ,在...

机器学习算法的概率解释--二项分布

二项分布 二项分布可以看做输出结果有两类(0或1)分类问题有限次观测 x1…..xn可以看做样本 二项分布的概率(n次观测发生k次的概率) $$p(x=k)=C_N^k\mu^k(1-\mu)^{n-k}$$ 某次事件发生的概率x只有两种情况发生或者不发生用0或者1表示 $$事件发生或者不发的的概率为\mu&& $$p=\mu^x(1-\mu)^{1-x}$$ ...

猜想(个人意淫)

纯属个人意淫 (猜想:是否可以对训练集采用反例来训练)通过极大化误差函数 想法:对于梯度下降的学习方法因为每次跟新都是根据学习率根据梯度方向(是数字量) 可不可以通过模拟的方法直接跳过局部最优点到达最优点(通过硬件) 猜想:对于cnn当进行下一层卷积运算时可不可以将上一层卷积的所有feature map 看成一张图片(也就是说对feature map 合成一张特征图片) 对于偏置的设...

牛顿法解析

牛顿法详解 Jacobian矩阵和Hessian矩阵 1. Jacobian 在向量分析中, 雅可比矩阵是一阶偏导数以一定方式排列成的矩阵, 其行列式称为雅可比行列式. 还有, 在代数几何中, 代数曲线的雅可比量表示雅可比簇:伴随该曲线的一个代数群, 曲线可以嵌入其中. 它们全部都以数学家卡尔·雅可比(Carl Jacob, 1804年10月4日-1851年2月18日)命名;英文雅可比量...

cnn误差分析

cnn的误差 第一部分 全连接网络的权值更新 卷积神经网络使用基于梯度的学习方法进行监督训练,实践中,一般使用随机梯度下降(机器学习中几种常见的梯度下降方式)的版本,对于每个训练样本均更新一次权值,误差函数使用误差平方和函数,误差方式采用平方误差代价函数。  1.1  前向传播中样本的误差以及每层的输出   全连接区的第l层(l来表示当前层)的输出函数为:            ...

深度学习

深度学习网络 对于图片描述网络的构建 Rnn网络的隐层与隐层之间是全连接的 自编码器 输出的目标是和输入一样 让输出逼近输入的过程 对于pca方法选择k的个数是看特征值的比重 对于一幅图像将所有像素值加起来求均值然后减去均值的意义是:图像的内容与图像平均亮度无关 做图像pca处理时使用该方法去均值 对于softmax分类和logistic...

机器学习中的小问题

一些值得注意的问题 规范化数据 去均值和归一化 在图像去均值时可以是通道上的也可以的像素上的 更新参数的方法详解 1 momentum update 基于对梯度的方向改变 SGD每次更新的时候只更新了一个batch的方向当另一个batch来的时候方向就变了 会在山谷间来回摆动向前 就像一个没有质量没有摩擦力的球只会沿着梯度方向走 最终导致来回摆动下面...