分类目录归档:技术交流

数字化营销:A/B 测试简介

A/B测试随着互联网和增长黑客的发展被人们广泛熟知,在企业决策中的一些场景中能够提供很好的数据支撑,是数据科学中很重要的组成部分。就是希望通过假设检验的方式确定我们的实验组和对照组是否具备显著差异。在具体的项目实施过程中也可能会发现想要做好一个A/B测试没有想象中的那么简单。

继续阅读

Distribution Is All You Need – 3. Exponential Distribution

为什么会发明Exponential分布,什么时候会用到Exponential分布?指数分布其实来源于Poisson分布,它在Poisson分布同样的假设前提下,讨论了距离下一个事件发生还有多久时间的概率分布。

  • 距离下一个新生儿出生还有多久时间.
  • 距离下一次用户购买还需要等多久。
  • 距离下一辆公交车到还需要等待多少时间。
继续阅读

Distribution Is All You Need – 2. Poisson Distribution

为什么发明了Poisson分布,什么时候会用到Poisson分布?日常生活中很多事情是有固定频率的,譬如医院平均每小时会有3个新生儿,每天平均有10个用户会浏览我的主页,小卖部一周会卖出去300个商品等等。Poisson分布就是用来描述了未来一段时间内某个事情发生K次的可能性。换句话讲,预测在未来固定的一段时间间隔里面某个事件发生k次的概率。

继续阅读

Distribution Is All You Need – 1. Bernoulli and Binomial

我们进入统计分布的第一部分,从最基本简单的伯努利(Bernoulli)和二项分布(Binomial)开始聊起。

Bernoulli为什么发明了Bernoulli分布?目的就是描述一件事情发生或者不发生的概率(或者称为yes-no问题),发生为1不发生为0,分别对应概率P和1-P。

继续阅读

Distribution Is All You Need

数据挖掘或深度学习的材料中经常会看到各种各样的分布,但是即便我们看到对应的公式也通常搞得人一头雾水。因为自己学物理出身,总希望理解各种数学公式背后所对应的物理或现实概念是什么,这个系列便是希望通过相对细致的介绍了解各种分布背后所表达的应用场景以及各个分布之间的关系来加深我们的理解。

在进入后续的介绍之前,这里先简单的理清几个最基本的概念。

继续阅读

关于机器学习你应该知道的事

机器学习或者称作数据挖掘(data science&data mining)是计算机科学、统计学和软件工程学的交叉学科,原则上都是通过在大量累积的数据中发现规律并为业务带来经济效益或提供评估依据的过程。实践项目的整个过程中会不断的遇见不同的商业模式、业务类型,并通过结合数学计算机工具来解决实际问题,让整个工作充满了挑战和趣味性。回想起自己第一次接触机器学习的项目,抱着一本Bishop的<Pattern Recognition and Machine Learning>啃了半天,那个时候真是一头雾水。后来经历了第一个kaggle比赛后,逐步的上手了解了整个机器学习的过程,于是想要写一下关于表格类比赛一般应该考虑的主要步骤,以供大家参考指正。

继续阅读