Distribution Is All You Need

数据挖掘或深度学习的材料中经常会看到各种各样的分布,但是即便我们看到对应的公式也通常搞得人一头雾水。因为自己学物理出身,总希望理解各种数学公式背后所对应的物理或现实概念是什么,这个系列便是希望通过相对细致的介绍了解各种分布背后所表达的应用场景以及各个分布之间的关系来加深我们的理解。

在进入后续的介绍之前,这里先简单的理清几个最基本的概念。

Random Variable

我们会发现世界上很多的事情结果并不是确定性的,今天是否会下雨?扔硬币是正是反?选出100个男生的平均身高;明天股票市场的价格….这种在实验之后才能够确定结果的变量我们称为随机变量,一般来说可以分为两种:

  • 离散随机变量
  • 连续随机变量

随机变量的研究对于现实生活非常有意义,统计学、概率论就是帮助我们理解这些常见随机事件背后规律的学科,可以帮助我们系统性的去认识随机变量。譬如我们通常都知道一群人的身高满足正态分布,那么这里面就需要引出几个分布的概念。

PMF(Probability mass function)

概率质量函数用来描述离散随机变量不同可能取值的概率的函数。以抛骰子为例,横轴表述的是随机变量的可能取值,纵轴为每个取值的概率。因为是描述概率,所以y-轴永远不可能为负数,同时所有离散概率之和为1.

PDF(Probability density function)

概率密度函数用来描述连续随机变量取值概率密度的函数,值得注意的是这里的纵轴和PMF不一样,并不是概率 (很多人在这里有误解)。概率密度在一段连续随机变量上的积分才是对应的概率数值,这里也可以看出为什么一个叫概率密度一个叫概率质量,只有密度乘以体积(连续变量的范围)才是对应的概率数值。因为是概率密度,所以纵轴是可以大于1的,但是当然不会为负数。我们以Gamma 分布为例,可以看到如下的概率密度函数,在取值为1.5的时候,Gamma分布的概率密度函数就会出现大于1的数值。

CDF(Cumulative distribution function)

累积分布函数的目的并不是为了看某个可能取值的概率,而是看在大于或者小于某个取值的范围内概率的数值是多少。计算方式是沿着x-轴从左向右一直累加所处范围内的概率取值。不分离散还是连续变量,都可以计算出对应的累积分布函数。例如以之前的骰子PMF为例,我们可以计算出对应的CDF如下图所示。

参考文献

发表回复

您的电子邮箱地址不会被公开。