协方差公式(协方差与方差的关系)

数据分析统计统计学是数据分析中必须掌握的基础知识。它是通过对数据的搜索、整理、分析和描述,推断被测对象的性质,甚至预测对象的未来的一门综合科学。统计学运用了大量

数据分析统计

统计学是数据分析中必须掌握的基础知识。它是通过对数据的搜索、整理、分析和描述,推断被测对象的性质,甚至预测对象的未来的一门综合科学。统计学运用了大量的数学等学科的专业知识,其应用几乎涵盖了社会科学和自然科学的所有领域,甚至是数据量巨大的互联网领域。因此,扎实的统计基础是一名优秀数据分析师的必备技能。统计学知识包括图形信息化、数据集中趋势、概率计算、排列组合、连续概率分布、离散概率分布、假设检验、相关与回归等知识。具体知识点,楼主就不一一介绍了。有兴趣的同学请参考《深入浅出》和《统计学:从数据到结论》这两本书。今天的分享将主要选取统计学中一些容易混淆而又重要的知识点。

PS:该部分知识点由“简单统计”和网友分享的博客、知乎整理而成。转载部分已在原文中引用,并在文末参考链接部分标注。欢迎阅读网友原创作品。

01

方差,协方差,R,R2

1.方差、标准差和标准差系数

(1)方差:所有样本的平均值之差相减,平方后累加求和,最后除以样本数。

(2)标准差:将所有样本的平均值之差相减、平方、累加,然后除以样本数,最后给出处方。

(3)标准差系数:平均值减去所有样本的差值,平方,累计求和,除以样本数,然后求平方根,最后除以样本平均值。

2.协方差

协方差通俗的理解就是两个变量在变化过程中是同向还是反向。同向或反向的程度是多少?

当你变大时,我也变大,这意味着两个变量同向变化,那么协方差为正;

你变大,我变小,这意味着两个变量的变化方向相反,然后协方差为负。

协方差计算公式:

如果有两个变量,x和y,用x和它在每一时刻的均值之差乘以y和它的均值之差,得到一个乘积。将此刻的乘积求和,求平均值。

3.相关系数r

相关系数有三种:spearman,pearson,kendall。

协方差值会随着变量维数的变化而变化(协方差不是尺度不变的),所以这就提出了皮尔逊相关系数的概念:

相关系数(皮尔逊相关系数):x和y的协方差除以x和y的标准差的乘积。

解释:自变量X和因变量y的协方差/标准差的乘积。

*协方差:两个变量是同向变化还是异向变化。x和y也高,协方差为正;否则为负。

*为什么要分标准差:标准化。即排除X和Y自身变化的影响,只讨论它们之间的关系。

*因此,相关系数是一种特殊的协方差。

4.决定系数R2

先说决定系数。回归模型中一般用r平方来评价预测值与实际值的吻合程度。R2的定义如下:

决定系数=回归平方和/总平方和=1-残差平方和/总平方和

02

极限中心定理和大数定理

大数定律告诉我们,样本均值收敛于总体均值,也就是期望。

中心定理告诉我们,当样本足够大时,样本均值的分布会逐渐趋于正态。

中心极限定理收敛于大数定律。

1.中心极限定理

中心极限定理是指给定的人口具有任意分布。每次从这些人群中随机选取n个样本,总共取m次。然后分别对m组样本进行平均。这些平均值的分布接近正态分布。

下图生动地说明了中心极限定理。

协方差公式(协方差与方差的关系)插图

当样本量N逐渐趋于无穷大时,N个样本平均值的频率逐渐趋于正态分布,这不需要原始总体的分布,意味着无论总体的分布是什么,其样本平均值的频率分布随着样本数的增加而趋于正态分布。如上图所示,这个正态分布的U会越来越逼近总体的平均值,其方差满足A ^ 2/N,其中A是总体的标准差。注意多次取样。

2.大数定律

大数定律是指在随机实验中,每次的结果都不一样,但是大量重复实验的结果的平均值几乎总是接近某个值。

ps:

1.总体分布不应该是正态分布。

2.取样应足够大(>:=30)

3.数学理论

数学理论

假设有n个独立的随机变量,它们的和为:

协方差公式(协方差与方差的关系)插图(1)

那么大数定律(以一般大数定律为例),它的公式是:

协方差公式(协方差与方差的关系)插图(2)

而中心极限定理的公式是:

协方差公式(协方差与方差的关系)插图(3)

注:以上两个公式,一个是值为0,均值为0的正分布;和左边很像!

4.差异

(1)随机变量的分布

大数定律:揭示了大量随机变量的平均结果,但不涉及随机变量的分布。

中心极限定理:陈述在一定条件下,大量独立随机变量的平均值受正态分布的限制。

(2)研究内容不同。

大数定律研究在什么条件下这组数据以概率收敛于它们的平均值。

中心极限定理研究这些样本按照分布收敛于正态分布的条件。(毛《概率论与数理统计》)

(3)描述的问题不同。

大数定律描述的是频率稳定度,也就是我们所说的特定值的频率稳定度,也就是概率;

中心定理描述的是分布的稳定性,也就是说频率有很多,但都服从正态分布。XY轴上Y值最高的正态分布值就是概率。

(4)举个例子。

大数定理是指当样本足够大时,会逼近期望,当样本无限大时,平均值就是期望(一个值)。

中心定理说的是样本相对于预期涨跌的偏差分布。(出现一个分布模式)

举个简单的例子,一滴水从高处空落下,经过一个随机分布的风向后,落到地面。

大数定理指出,无论风向的分布规律是什么,所有点到垂直落点的距离都应该等于一个值,这个值就是期望值。

极限定理指出,无论风向分布规律如何,每个样本距期望位置的距离分布都符合正态分布。

03

条件概率和贝叶斯公式

1.概率:衡量某事发生概率的定量指标。

进一步理解:概率只是一个事件发生可能性的表达,概率不是保证。

2.事件:有可能的结果或事件。

计算公式:

协方差公式(协方差与方差的关系)插图(4)

其中s称为概率空或样本空。

3.概率的直观表达:

文氏图

概率树

4.对立事件:“A没有发生”事件可以用A & # 39代表。一& # 39;一个对立的事件叫做A. A & # 39包括事件A . P(A & # 39;)=1-P(A)

5.互斥事件:事件A和事件B不会同时发生。

6.交集事件:事件A和事件B会同时发生。

协方差公式(协方差与方差的关系)插图(5)

7.独立事件:几个事件互不影响。P(A|B)=P(A)。如果两个事件相互独立,那么P(A∩B)= P(A|B)P(B)=P(A)P(B)

8.穷举事件:两个事件的并集是一个完整的集合。

焦点

9.条件概率:P(A|B)=P(A∩B)/P(B)

10.全概率公式:根据条件概率计算特定事件的全概率。P(B)= P(A∩B)+P(A & # 39;∩B)= P(A)* P(B | A)+P(A & # 39;)* P(B | A & # 39;)

11.贝叶斯定理:它提供了一种计算逆条件概率的方法,在每个概率都无法再预测的时候非常有用。

贝叶斯定理:P(A),P(B|A),P(B | A & # 39;);求P(A|B)。

P(A | B)= P(A∩B)/P(B)= P(A)* P(B | A)/P(A)* P(B | A)+P(A & # 39;)* P(B | A & # 39;)

公式:P(A∪B)= P(A)+P(B)-P(A∪B)

12.相关事件:如果P(A|B)不等于P(A),则称事件A和事件B的概率相互影响。

【贝叶斯定理例题解析——2020 Pdd学霸笔试题】

假设A厂和B厂产品的次品率分别为1%和2%。现在从A厂和B厂产品各占60%和40%的一批产品中随机抽取一个产品。如果发现有缺陷,那么该缺陷产品是A厂生产的概率是_ _ _ _ _ _。

[分析]

设事件为:A={提取的产品由工厂A生产};事件:B={提取的产品是B厂生产的};事件:C={次品被提取};很明显:
p(a)= 0.6;P(B)= 0.4
P(C | A)= 0.01;p(C | B)= 0.02;根据全概率公式,
p(c)= p(a)p(c | a)+p(b)p(c | b)
= 0.6×0.01+0.4×0.02
= 0.014。

=0.006÷0.014=3/7

答案是:3/7

04

正态分布和偏态分布

1.正态分布和偏态分布的概念。

正态分布

偏斜分布

左偏态:左偏态分布,负偏态分布,以尾部命名。左偏或负偏的尾部主要在左侧;

右偏:右偏分布,正偏分布。同样,右偏或正偏的尾部集中在右侧;

2.众数、中位数和均值之间的关系。

协方差公式(协方差与方差的关系)插图(6)

正态分布或偏态分布(左偏/右偏)在函数图像上容易区分,在统计数据上也容易区分,如正偏态分布(右偏),均值>;中位数& gt模式,对于负偏差(左偏差),均值<中值& lt模式2 .

3.正态分布的数字特征

协方差公式(协方差与方差的关系)插图(7)

4.偏度分布的偏度和峰度

(1)偏度和峰度分布的形状

协方差公式(协方差与方差的关系)插图(8)

(2)偏斜系数

偏斜系数用来衡量分布是否对称。正态分布是对称的,偏度系数为0。较大的正值表示分布右侧的尾部较长。负值越大,表示左侧的尾部越长。偏度系数与其标准误差的比值也可以用来检验正态性。

偏斜系数的计算公式如下:

协方差公式(协方差与方差的关系)插图(9)

焦点

1)偏度系数=0是对称分布。

2)偏度系数>:0为右偏。

3)偏斜系数

(3)峰度系数(Kurtosis)

峭度系数的概念:峭度系数是用来反映频率分布曲线顶部的陡度或平坦度的指标。有时两组数据的算术平均值、标准差和偏度系数相同,但其分布曲线顶端的高度不同。

峰度用来衡量数据在中心的聚集程度。

峰度系数的计算公式:

协方差公式(协方差与方差的关系)插图(10)

焦点

1)峰度系数=3,平坦度适中。

2)偏斜系数

3)偏斜系数>:3。峰峰值分布

在正态分布的情况下,峰度系数值为3(但SPSS等软件将正态分布的峰度值设置为0是因为已经减去了3,便于比较)。

& gt峰度系数为3表示观察量更集中,尾部比正态分布短。& lt峰度系数为3说明观测值没有那么集中,存在比正态分布更长的尾部,类似于一个矩形的均匀分布。

峰度系数的标准差用于判断分布的正态性。峰度系数与其标准误差的比值用于检验正态性。如果这个比值的绝对值大于2,则该正态性将被拒绝。

05

3δ原则

3δ原理介绍

假设一组测试数据只包含随机误差,计算并处理标准差,按照一定概率确定一个区间。认为任何超出此区间的误差都不是随机误差而是粗差,应剔除包含此误差的数据得到3δ。

协方差公式(协方差与方差的关系)插图(11)

在正态分布中,δ代表标准差,μ代表均值。X=μ是图像的对称轴。

3δ:(μ-δ,μ+δ)中数值分布的概率为0.6826;

(μ-2δ,μ+2δ)中值分布的概率为0.9544;

(μ-3δ,μ+3δ)中值分布的概率为0.9974;

可以认为y的值几乎都集中在(μ-3δ,μ+3δ)]的范围内,超过这个范围的可能性只占不到0.3%。

quasi是基于正态分布的等精度重复测量,使得奇异数据的干扰或噪声很难满足正态分布。如果一组测量数据中某一测量值的残差的绝对值νI > 3δ,则该测量值是不良的,应予以剔除。

通常将等于3δ的误差作为极限误差。对于正态分布的随机误差,落在3δ之外的概率只有0.27%,其在测量中的可能性很小,所以存在3δ判据。

3δ准则是最常用、最简单的粗差准则。一般适用于测量次数足够多(n ≥30)或以n > 10为判据的情况。

参考链接

协方差公式(协方差与方差的关系)插图(12)

https://www.zhihu.com/question/20852004

https://blog.csdn.net/theonegis/article/details/85991138#_5

https://www.jianshu.com/p/8aefd78be186

https://zhuanlan.zhihu.com/p/32335608

https://blog.csdn.net/u014755493/article/details/72118559

https://zhuanlan.zhihu.com/p/36259056

https://moluchase.github.io/2018/08/29/ml07/

https://www . cn blogs . com/sherial/archive/2018/03/07/8522405 . html

协方差公式(协方差与方差的关系)插图(13)

点击注意

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/112207.html

发表回复

登录后才能评论