机器学习本质问题理解

Posted by 高庆东 on October 6, 2017

概率理解

  • 平方差目标函数作为误差函数的证明 均值为0的高分分布的极大似然估计

平方差误差

逻辑回归方程建立

线性回归中解析式求解

线性回归解析解

逻辑回归

逻辑回归

对数似然函数求导

最大熵

熵表示了混乱程度,越混乱越稳定,就像一个房间如果不收拾会越来越乱,事物的发展总是熵增的方向,熵越大越稳定 均值分布是最不确定的情况熵值最大

熵公式

相对熵

聚类

层次聚类从单到多或者从多到单

DBSCAN聚类算法

先定义邻域的直径 如果一个样本点邻域内的样本点的数目大于设定值则将该样本点视为核心点 如果某个点包含在核心点内则该点邻域内的所有点与核心点邻域内所有点看成一簇 一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在有“噪声”的数据中发现任意形状的聚类。 简单来说就是寻找核心点的所有密度可达的点的邻域内所有点为一个簇

谱聚类

方阵作为线性算子,它的所有特征值的集合成为方阵的谱。 矩阵的谱半径:矩阵和其共轭转置乘积的最大特征值