方差公式变形(随机变量方差公式变形)

今天是概率统计专题的第六篇。我们来看看方差相关的概念。方差的定义方差在我们的日常生活中是很常见的,它主要用来提供对样本异常值程度的描述。举个简单的例子,我们买一

今天是概率统计专题的第六篇。我们来看看方差相关的概念。

方差的定义

方差在我们的日常生活中是很常见的,它主要用来提供对样本异常值程度的描述。举个简单的例子,我们买一袋薯片。一般来说,一袋薯片的数量是固定的。我们假设平均每袋有50片薯片。即使是用机器灌装,每个袋子也不可能刚好有50片。或多或少会有一些误差。平均值不能衡量这个误差。

现在如果有两个牌子的薯片,味道都差不多,平均每袋50片。但是A品牌的薯片一半是80,另一半是20。品牌B呢?99%都在45-55之间。你觉得你会买哪个牌子?(不考虑过磅)。

现代社会,工厂制造的所有产品,基本上都离不开方差这个概念。方差越低,工厂的生产能力就越强,能把每一件产品都做好。反之,如果方差较大,则说明缺陷较多,不够精细。也就是说,方差衡量的是样本对均值的期望。

应该写成:E|X-E(X)|。

但是因为公式中有绝对值,所以我们一般都是平方,消去绝对值。写:

方差公式变形(随机变量方差公式变形)插图

这里的e是期望的意思,写在统计学里。如果不能理解,我们还可以把公式展开成:

方差公式变形(随机变量方差公式变形)插图(1)

这里,n代表样本数,X条是样本的平均值。Var是英文variance的缩写。我们也可以写成D(X)。

由于方差是通过平方计算得到的,我们也可以求出它的根,得到标准差。根D(X),也可以写成σ(X)。

方差的性质

关于方差有几个著名的性质,如果x是变量,c是常数。所以:

方差公式变形(随机变量方差公式变形)插图(2)

也就是说,对于每个变量,乘以一个常数,使整体的方差扩大了C的平方,这个很好理解,因为样本值扩大了C倍,由于我们在计算方差时用的是平方,自然也就扩大了C倍。我们可以很容易地用上面的公式来证明。

下一个属性是:

方差公式变形(随机变量方差公式变形)插图(3)

即所有样本加上一个常数,整体的方差保持不变。如果我们的样本不是一个值,而是一个向量,那么这个公式可以推广到样本加上一个常数向量,样本的方差不变。这也很好理解。给样本加一个常数向量,相当于整体向向量的方向移动了一段距离,不会影响整体的分布。

如果样本x的方差为0,则样本中只有一个值。

以下属性稍微复杂一些:

方差公式变形(随机变量方差公式变形)插图(4)

也就是说方差等于样本的期望平方减去样本的期望平方。单从定义上我们很难得出这个结论,需要严谨的推导:

方差公式变形(随机变量方差公式变形)插图(5)

有时候,我们不方便直接求解样本的方差,但是很容易求解平方的期望。这个时候可以考虑用这个公式进行代入。

方差与协方差

一般我们在机器学习中不会直接使用方差,更多时候是在特征分析中使用。看特征的方差来感知其离散度,决定是否对特征做一些处理。因为对于某些模型来说,如果特征的方差过大,模型可能难以收敛,或者收敛效果可能受到影响。这时候往往需要考虑用一些方法来规范特征值。

除了方差,一个类似的概念经常被用来衡量两个变量之间的相关性协方差。

实际上,协方差的公式与方差密切相关。我们简单推导一下。

首先我们来看D(X+Y),这里X和Y是两个变量,D(X+Y)表示X+Y的方差,我们来看D(X+Y)与D(X)和D(Y)的关系。

根据方差的定义,我们可以推导出:

方差公式变形(随机变量方差公式变形)插图(6)

这里n是常数,可以忽略,只用来看分子。让我们扩展一下公式:

方差公式变形(随机变量方差公式变形)插图(7)

我们来看看经过上述简化后的结果:

方差公式变形(随机变量方差公式变形)插图(8)

在这个公式中,D(X)和D(Y)都是固定的,不会随着XY的相关性而变化。但后一项不是,跟XY的相关性有关。

我们可以用这一项来反映x和y的相关性,这就是协方差的公式:

方差公式变形(随机变量方差公式变形)插图(9)

所以协方差反映的不是变量的离差和分布,而是两个变量之间的相关性。在这一点上,我们可能看不清楚。没关系。让我们对它做一个简单的变形,然后除以两者的标准差:

方差公式变形(随机变量方差公式变形)插图(10)

这种形式非常类似于两个向量之间夹角的余弦,也就是著名的皮尔逊值。皮尔逊值类似于余弦值,可以反映两个分布之间的相关性。如果P值大于0,两组变量正相关,否则负相关。我们可以通过计算证明p值是-1到1之间的一个数。

如果p的值等于0,说明X和Y是完全独立的,没有相关性。如果p的值等于1,则可以找到相应的系数w和b,使得y = wx+b。

结尾

在机器学习领域,计算两组变量之间的相关性非常重要。因为本质上,机器学习模型所做的就是通过挖掘特征与预测值之间的相关性来完成预测。如果某一组特征和预测值是完全独立的,那么对于模型来说是没有用的,无论我们选择什么样的模型。

因此,我们经常通过分析特征和标签之间的皮尔逊值来衡量特征的重要性,从而对特征进行选择和再加工。如果只看皮尔逊值及其公式,很难完全理解和记忆。然而,对我们来说,从方差入手,理清整个环节要容易得多。即使我们后来忘记了,也可以根据它们之间的关系重新推导出来。

今天的文章就到这里。原创不容易。更多文章关注我。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/109399.html

发表回复

登录后才能评论