指数分布的方差(概率论D(X)与E(X)公式)

本文是为期10周的介绍性数据分析系列的第9篇。

了解学习路线,可以先看《学习计划| 10周入门数据分析》

本文重点介绍了分析中常用的六种重要分布,并说明了它们的应用。

假设你是一所大学的老师。检查完一周的作业后,你给所有学生打分。将你的评分论文交给大学的数据录入人员,告诉他创建一个包含所有学生成绩的电子表格。但是这个人只存储结果,不包括对应的学生。

他又犯了一个错误,匆忙跳过了几个项目,但我们不知道我们失去了谁的成绩。让我们看看如何解决这个问题。

一种方法是将结果可视化,看看能否在数据中找到某种趋势。

上图称为数据的频率分布。有一个平滑的曲线,但是你注意到一个异常吗?在一定的分数范围内,数据出现的频率异常低。因此,最准确的猜测是值丢失,从而导致分布中的凹陷。

这个过程展示了如何使用数据分析来尝试解决现实生活中的问题。对于任何数据科学家、学生或从业者来说,分布是一个必须了解的概念。它为分析和推理统计数据提供了基础。

虽然概率为我们提供了数学计算,但分布可以帮助我们可视化内部发生的事情。

在这篇文章中,我将介绍一些重要的概率分布,并对它们进行清晰而全面的解释。

常见数据类型

在我们开始详细讨论分布之前,让我们看看我们将会遇到哪些类型的数据。数据可以分为离散的和连续的。

离散数据:顾名思义,它只包含指定的值。比如你掷骰子,输出结果只能是1、2、3、4、5或6,1.5或2.45是不可能的。

连续数据:可以取给定范围内的任意值。范围可以是有限的,也可以是无限的。比如女生的体重或者身高,路程的长短。女生的体重可以是54斤,54.5斤,也可以是54.5436斤。

现在开始学习分布的类型。

分配方式

1.伯努利分布

从最简单的分布开始伯努利分布。

伯努利分布只有两种可能的结果,1(成功)和0(失败)。所以,服从伯努利分布的随机变量x可以取值1,即成功的概率,可以用p来表示,也可以取值0,即失败的概率,可以用q或1-p来表示。

概率函数由下式给出:px(1-p)1-x,其中x (0,1)。也可以写成:

成功和失败的概率不一定相等。这里,成功的概率(P)不同于失败的概率。所以,下图显示了我们之间竞争结果的伯努利分布。

这里成功的概率= 0.15,失败的概率= 0.85。如果我打了你,我可能会希望你回我电话。任何分布的基本期望值都是分布的平均值。伯努利分布中随机变量x的期望值如下:

E(X) = 1*p + 0*(1-p) = p

随机变量和二项分布的方差为:

v(X)= E(X)–[E(X)]= p–p = p(1-p)

伯努利分布的例子很多,比如明天会不会下雨。如果下雨,意味着成功;如果不下雨,就意味着失败。

2.均匀分布

对于掷骰子,结果是1比6。得到任何结果的概率都是相等的,这是均匀分布的基础。与伯努利分布不同,均匀分布的所有可能结果的数量n是相等的。

如果变量x是均匀分布的,密度函数可以表示为:

均匀分布曲线是这样的:

大家可以看到,均匀分布曲线的形状是一个长方形,这就是为什么均匀分布也叫矩形分布。其中a和b是参数。

花店每天卖出的花束数量分布均匀,最多40个,最少10个。我们来计算一下日销量在15-30之间的概率。

日销售额在15-30之间的概率为(30-15)*(1/(40-10)) = 0.5。

同理,日销量大于20的概率= 0.667。

服从均匀分布的x的均值和方差为:

平均值–>:E(X)=(a+b)/2

方差->: V(X) = (b-a) /12

标准均匀密度的参数a = 0,b = 1,因此标准均匀密度由下式给出:

3.二项分布

我们来看看打板球的例子。假设你今天赢了一场比赛,意味着一场成功的赛事。你有另一场比赛,但是你输了。今天赢了一局,不代表明天就赢了。我们来赋一个随机变量X,用来表示赢的次数。x的可能值是什么?它可以是任何值,取决于你掷硬币的次数。

只有两种可能的结果,成功和失败。所以成功的概率= 0.5,失败的概率就很容易计算出来:Q = P–1 = 0.5。

二项分布是一种只有两种可能结果的分布,比如成功或失败,获得或失去,赢或输,每次尝试的成功和失败的概率是相等的。

有可能结果不一定相等。如果实验成功的概率是0.2,那么失败的概率很容易计算得到q = 1-0.2 = 0.8。

每次尝试都是独立的,因为前一次投掷的结果不能决定或影响当前投掷的结果。只有两种可能结果并重复n次的实验称为二项式。二项分布的参数为N和P,其中N为试验总次数,P为每次试验成功的概率。

根据以上描述,二项分布的性质包括:

1.每个实验都是独立的。

2.实验只有两种可能的结果:成功或失败。

3.总共进行了N次相同的实验。

4.所有实验成功和失败的概率都是一样的。(实验是一样的)

二项式分布的数学表示由以下公式给出:

成功概率的二项分布不等于失败概率;

现在,当成功概率=失败概率时,二项分布如下

二项式分布的均值和方差由以下公式给出:

平均值–>:= n * p

方差->: Var(X) = n*p*q

4.正态分布

正态分布代表了宇宙中大多数情况的运行状态。大量随机变量被证明是正态分布的。只要具有以下特征,任何分布都可以称为正态分布:

1.分布的平均数、中位数和模式是一致的。

2.分布曲线呈钟形,关于x = μ线对称。

3.曲线下的总面积为1。

4.一半的值在中心的左边,另一半在右边。

正态分布与二项式分布非常不同。但是,如果尝试的次数接近无穷大,它们的形状就会变得非常相似。

遵循正态分布的随机变量x的值由以下公式给出:

具有正态分布的随机变量x的均值和方差由以下公式给出:

平均值–>:E(X)= 1

方差->: Var(X) = σ^2

其中μ(平均值)和σ(标准差)是参数。

随机变量Xn (μ,σ)的图形如下所示。

标准正态分布定义为平均值等于0且标准差等于1的分布:

5.泊松分布

假设你在呼叫中心工作,你一天会接到几个电话?它可以是任何数字。现在,呼叫中心一天的呼叫总数可以用泊松分布来建模。以下是一些例子:

1.医院一天记录的急诊电话数量。

2.某一地区一天内报告的盗窃数量。

3.一小时内到达沙龙的顾客数量。

4.某一特定城市报道的自杀人数。

5.这本书每页上印刷错误的数量。

泊松分布适用于事件发生在随机时间和空之间的情况,这里我们只关注事件的数量。

当下列假设成立时,它们被称为“泊松分布”

1.一个成功的事件不应该影响另一个成功的事件。

短时间内成功的概率一定等于较长时间内成功的概率。

3.当时间区间变小时,在给定区间内成功的概率趋于零。

这些符号用于泊松分布:

λ是事件发生的速率t是时间间隔的长X是该时间间隔内的事件数。

其中,x称为泊松随机变量,x的概率分布称为泊松分布。

设μ代表长度为t的区间内事件的平均数,那么,= λ * t。

泊松分布的x由以下公式给出:

μ是这个分布的参数。μ也被定义为λ乘以间隔长度。泊松分布图如下:

下图显示了平均值增加时曲线的偏差:

可以看出,随着平均值的增加,曲线向右移动。

泊松分布中x的均值和方差;

平均值–>:E(X)= 1

方差->:Var(X)= 1

6.指数分布

让我们再看一下呼叫中心的例子。不同通话的时间间隔是多少?这里,指数分布模拟呼叫之间的时间间隔。

其他类似的例子有:

1.地铁到达时间间隔

2.该到加油站了

3.空音的生命

指数分布广泛应用于生存分析。从机器的预期寿命到人类的预期寿命,指数分布都能成功提供结果。

指数分布为* * * *的随机变量x:

f(x) = { λe-λx,x ≥ 0

参数λ >: 0也叫速率。

对于生存分析,λ称为设备在任意时刻T的失效率,并假设它生存到了时刻T。

服从指数分布的随机变量x的均值和方差为:

平均值->: E(X) = 1/λ

方差->: Var(X) = (1/λ)

另外,速率越高,曲线下降越快,速率越慢,曲线越平坦。下图很好的解释了这一点。

为了简化计算,下面给出一些公式。

p { x≤x } = 1–E-λx对应于x左侧曲线下的面积。

PP { X & gtX} = e-λx对应于x右侧曲线下的面积。

p { x1-λx1–e-λx2,对应于x1和x2之间的密度曲线下的面积。

p { x1-λx1–e-λx2对应于x1和x2之间曲线下的面积。

各种分布之间的关系

伯努利分布与二项分布的关系

1.伯努利分布是带有单次检验的二项分布的特例。

2.伯努利分布和二项分布只有两种可能的结果,即成功和失败。

3.伯努利分布和

二项式分布都有独立的轨迹。

泊松分布和二项分布的关系

当满足以下条件时,泊松分布是二项式分布的极限情况:

1.测试次数是无限的或者n → ∞。

2.每次实验成功的概率都是一样的,无限小,或者p → 0。

3.np = λ,是有限的。

正态分布关系

当满足以下条件时,正态分布是二项式分布的另一种限制形式:

1.测试次数是无限的,n → ∞。

2.P和Q都不是无限小的。

正态分布也是参数λ→∞的泊松分布的极限情况。

和指数泊松分布。

如果随机事件之间的时间遵循速率为λ的指数分布,则时间长度t中的事件总数遵循参数为λ t的泊松分布。

最后,看完这篇文章,是不是觉得有点像回答大学学概率论的问题了?

统计货有点辛苦,欢迎微信微信官方账号:数据分析不是问题。

学习计划| 10周入门数据分析不断完善。…

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/246222.html

发表回复

登录后才能评论