机器学习算法的概率解释--二项分布

Posted by 高庆东 on April 6, 2018

二项分布

二项分布可以看做输出结果有两类(0或1)分类问题有限次观测 x1…..xn可以看做样本

二项分布的概率(n次观测发生k次的概率)

$$p(x=k)=C_N^k\mu^k(1-\mu)^{n-k}$$

某次事件发生的概率x只有两种情况发生或者不发生用0或者1表示 $$事件发生或者不发的的概率为\mu&&

$$p=\mu^x(1-\mu)^{1-x}$$

\(要估计参数\mu\) 建立关于它的似然函数关于参数的似然函数等于给定参数后变量的x的概率

$$L(\theta|x)=p(X=x|\theta)$$

对于二分类问题先将样本输出转化为概率求最大似然得到合适的参数

  • 注意:这里需要假设样本是独立的(这是个非常强的调教,有很多限制)

最大似然物理意义

表示随机事件发生的情况下最可能使该事件发生的参数的值

对于二分类问题给出所有样本的观测,如果要预测下次发生的概率需要建立事件发生的模型,二分类问题只有两种情况0或者1,现在假设样本独立每个样本发生的概率为:

$$p=\mu^x(1-\mu)^{1-x}$$

统计所有样本,样本发生生成当前总样本样子的概率(有N个样本) x表示发生与不发生的值应为是二项分布所以用0和1表示

$$P=\prod^Np(xn|\mu)=\prod^N\mu^{xn}(1-\mu)^{1-xn}$$

对于上式表示概率要使这个概率最大,对式子求导求极值 可以解得

$$\mu=\frac{\sum_{n=1}^{N}Xn}{N}$$
  • 样本少可能得出的结果过拟合

例:

扔硬币3次正面上=1碰巧三次都是上N=3 mu=1所以不合理

beta分布

beta分布是二项分布的共轭先验分布 二项分布中的mu可以假设服从beta分布beat分布的范围在0到1之间所以 beta分布可以表示概率的概率,一下是beta的性质

$$B(\mu|a,b)=\frac{Gamma(a+b)}{Gamma(a)Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}$$
$$E(\mu)=\frac{a}{a+b}$$
$$Var(\mu)=\frac{ab}{(a+b)^2(a+b_+1}$$
  • 对于二项分布的估计可以加上先验
  • 物理意义表示的就是概率的概率

贝叶斯思想

有了先验分布结合贝叶斯和极大似然可以更准确地估计数据

$$贝叶斯公式为P(\theta|data)=\frac{p(data|\theta)p(\theta)}{p(data)}该公式正比于p(data|\theta)p(\theta)$$

贝叶斯公式为

$$P(\theta|data)=\frac{p(data|\theta)p(\theta)}{p(data)}

该公式正比于p(data|\theta)p(\theta)$$


$$p(data|\theta)为似然函数,用Beta分布表示p(\theta)$$