数据,算法是对是错

Posted by 高庆东 on July 11, 2018

各种假设

假设独立

样本独立在模型训练中是非常重要的一点,样本不独立模型感知到的信

息非常不完善,而在实际应用中我们将收集到是数据理所当然假定为独

立。独立是非常苛刻的条件。说某个数据集独立,不如说某个数据集是

无限大的。

假设同分布

同分布假设也是个很强的假设,样本完全来自同一个分布的概率很小,

可能来自于近似分布,最小二乘概率解释是样本误差服从0均值高斯分

布的极大似然估计。

假设过程平稳

平稳相对独立是较弱的条件,马尔科夫要求过程平稳,平不平稳谁说得

准呢,此时平稳不代表彼时平稳。都是假平稳。

假设凸函数

这是不常用假设,用的时候假设存在最优值,可以假设函数某段是凸的

假设不相关

数据特征之间的相关性不可能为0,排除相关性是不可能能,去相关也只

是减小了相关程度,我断言没有不相关的特征。

假设线性

现实中大部分系统都是非线性的,很多参数都是和时间有关系的,非线

性系统的参数函数也可能是非线性的。

因果假设

什么样的因有什么样的果,反过来就不适用了,混沌理论说的好呀

以结果推断原因其实有很大偏差,而现在的机器学习算法很多都是

根据结果推断原因。正如无限猴子实验:即使有无限时间无限的猴

子无限的电脑,猴子也不可能在大脑上打出莎士比亚的诗歌。

**整体来说生成一个及格的模型需要独立且无限的数据,每个数据有0

相关的特征。恰当的评价函数,和一台快速解方程的机器 **