Distribution Is All You Need – 2. Poisson Distribution

为什么发明了Poisson分布,什么时候会用到Poisson分布?日常生活中很多事情是有固定频率的,譬如医院平均每小时会有3个新生儿,每天平均有10个用户会浏览我的主页,小卖部一周会卖出去300个商品等等。Poisson分布就是用来描述了未来一段时间内某个事情发生K次的可能性。换句话讲,预测在未来固定的一段时间间隔里面某个事件发生k次的概率。

我们来具体解决一个实际生活中的例子】:我们假设自己开了一个Tmall网店卖体育用品,过去一年里面总共有4300人光顾过商店,一共卖出去230支羽毛球拍。我想知道接下去的一周里面卖出去6支羽毛球拍的概率有多少?

【二项分布】这个问题的研究其实我们可以用上一次讲到的二项分布来求解。二项分布就是假设每次实验独立且成功概率不变的情况下,估计N次重复实验之后,有x次实验成功的分布情况。

一周内访问店铺的人数=4300/52=82.69≈83
一周内成功购买的次数=230/52=4.42
访问用户会购买的概率=230/4300=0.0534

{\displaystyle \Pr(X=k)={\binom {n}{k}}p^{k}(1-p)^{n-k}}={\binom {83}{6}}0.0534^{6}(1-0.0534)^{83-6}}=0.128

我们已经用二项分布解决了这个问题,咱们的店铺未来一周卖出去6支羽毛球拍的概率是12.8%。

二项分布的缺点

  1. 随机变量必须是yes或no的结果,上面的例子中我们以用户为单位进行分析。但是如果完全按照时间来分析就会发现问题,因为单位时间里面可能会出现多次购买行为,需要不断把时间颗粒度划分的更细。
  2. 二项分布中需要提前知道要尝试多少次(需要提前知道n)。

泊松分布不需要提前知道n和p,因为该分布假设n是无穷大且p是无穷小(相当于把上面的时间颗粒度切分的无限小,保证每一个颗粒度中的结果都满足二项分布)。分布中唯一的参数就是速率lambda(x的期望)。因为在实际应用中,相比于知道n和p,了解在一周之内一般会有3次购买往往更加普遍。

泊松分布

泊松分布就是二项分布的极限形式。通过假设n趋于无穷大,那么就可以从二项分布推导出泊松分布出来。

这里就可以的到泊松分布的公式:

那么根据上面的公式,我们简单计算一下之前例子的概率为:

\!f(6; 4.42)= \Pr(X{=}6)= e^{-4.42} \frac{4.42^6 }{6!}=0.1246

概率结果和之前通过二项分布计算出来的也基本保持一致。

Poisson分布

泊松分布的假设

  1. 单位时间内事件发生的速率假设是保持一致的,例如按照小时去评价到店人员可能就不准确,但是按照月份去统计到店人数应该是一致的。
  2. 事件应该相互独立,但是可能因为一段时间内我们做了促销,用户会因此大规模进入。

发表评论

您的电子邮箱地址不会被公开。