深度学习中的概率论

Posted by RAIS on 2020-03-27
  • 本文首发自公众号:RAIS,期待你的关注。

前言

本系列文章为 《Deep Learning》 读书笔记,可以参看原书一起阅读,效果更佳。由于平台支持不好,因此很可惜有些内容需要用图片展示,如果有问题,或需要获取源文件,请在公众号下方点击联系我,可以直接给我微信发消息。

概率论

机器学习中,往往需要大量处理不确定量,或者是随机量,这与我们传统所需要解决掉问题是大不一样的,因此我们在机器学习中往往很难给出一个百分百的预测或者判断,基于此种原因,较大的可能性往往就是所要达到的目标,概率论有用武之地了。

概念

离散型

  • 概率质量函数:是一个数值,概率,$0\leq P(x)\leq 1$;
  • 边缘概率分布:$P(X=x)=\sum_{y} P(X=x, Y=y)$
  • 期望:$EX=\sum_xP(x)f(x)$

连续型

  • 概率密度函数:是一个积分,$F_X(x)=\int_{-\infty}^xf_X(t)dt$;
  • 边缘概率分布:$p(x)=\int p(x,y)dy$
  • 期望:$EX=\int P(x)f(x)dx$

条件概率

$$
P(Y=y|X=x)=\frac{P(Y=y,X=x)}{P(X=x)}
$$

相互独立

$$
P(X=x,Y=y)=P(X=x)P(Y=y)
$$

条件独立

$$
P(X=x,Y=y|Z=z)=P(X=x|Z=z)P(Y=y|Z=z)
$$

方差

$$
D(X)=Var(X)=E{[X-E(X)]^2}
$$

标准差

$$
\sigma(X)=\sqrt{D(X)}
$$

协方差

$$
Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}
$$

相关系数

$$
\rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}
$$

常用分布

image

以上这些是大学概率论中就已经介绍过的了,下面这些是大学较少接触的,但是在机器学习的领域是很有用的。这里需要特别说一下 正态分布,也叫 高斯分布。当我们先验知识不足而不知道该选择什么样的分布时,正态分布是比较好的默认分布:第一,由 中心极限定理 知道,许多随机变量在大量重复试验时都会近似服从正态分布;第二,在具有相同方差的所有可能分布中,正态分布在实数上具有最大的不确定性,因此我们认为正态分布是对模型加入先验知识最少的分布。

范畴分布(Multinoulli 分布)

范畴分布是指在具有 k 个不同状态的单个离散型随机变量上的分布。什么意思呢?我们对比来说这个问题:

image

Laplace 分布

拉普拉斯分布。与指数分布可以对比着来看,看图:

image

Dirac delta 函数

狄拉克δ函数 或简称 δ函数,定义是在除 0 外其他点都为0,积分为 1 的函数。原点处无限高无限细,总面积为 1。

image

经验分布

是统计学中一种方法,简要概括为:用样本估计总体,总体是未知的,我们拿到了一些样本,用这些样本去估计总体。

image

高斯混合模型

混合分布的定义为将一些简单的已有的概率分布来定义新的概率分布。其中非常强大且常见的混合模型是高斯混合模型。它的混合的组件是高斯分布(正态分布)。这个话题展开来说问题太多了,不适合在本处展开,但是要记住这个问题非常重要。

常用函数及其性质

下面介绍一些常用的函数,他们有很好的性质,在机器学习和深度学习中有广泛的应用。

logistic sigmoid 函数

逻辑回归函数。logistic 函数或者 sigmoid 函数对应的图像是 sigmoid 曲线,是一条 S 形曲线。值域:(0, 1),从这里是不是就可以理解为什么我们之前的电影评论是好是坏二分类问题的最后一层激活函数用 sigmoid 了。image

softplus 函数

值域是 0 到正无穷。它的作用是用来产生正态分布的参数,在处理 sigmoid 函数的表达式时,也会出现。image

贝叶斯规则

$$
P(x|y)=\frac{P(x)P(y|x)}{P(y)}
$$

总结

如上这些内容是 《Deep Learning》 中涉及到的概率论相关的知识,内容有些分散,但是要记住,日后发现弄不懂的问题可以回来查看。这一篇就到这里。

  • 本文首发自公众号:RAIS,期待你的关注。