回归方程(回归方程相关系数r)

什么是回归分析?回归分析是一种预测建模技术,研究因变量(目标)和自变量(预测值)之间的关系。这种技术通常用于预测分析、时间序列模型和发现变量之间的因果关系。例如

7个回归分析方法!数据分析师必须掌握

什么是回归分析?

回归分析是一种预测建模技术,研究因变量(目标)和自变量(预测值)之间的关系。这种技术通常用于预测分析、时间序列模型和发现变量之间的因果关系。例如,研究驾驶员鲁莽驾驶与道路交通事故数量之间关系的最佳方法是回归。

回归分析是建模和分析数据的重要工具。这里,我们使用曲线/直线来拟合这些数据点。这样,从曲线或直线到数据点的距离差是最小的。我将在下一节详细解释这一点。

7个回归分析方法!数据分析师必须掌握

我们为什么要用回归分析?

如上所述,回归分析估计两个或多个变量之间的关系。现在我们举一个简单的例子来理解一下:比如在目前的经济条件下,你要估计一个公司的销售增长情况。现在,你有公司的最新数据,显示销售增长是经济增长的2.5倍左右。然后利用回归分析,可以根据现在和过去的信息预测公司未来的销售额。

使用回归分析有很多好处。如下所示:

它表明自变量和因变量之间的显著关系它表明多个自变量对一个因变量的影响强度

回归分析还允许我们比较衡量不同尺度的变量之间的相互作用,例如价格变化和促销活动数量之间的关系。这些有助于帮助市场研究人员、数据分析师和数据科学家排除和估计一组最优变量来建立预测模型。

我们有多少种回归技术?

预测有各种回归技术。这些技术主要有三个衡量标准(自变量的数量、因变量的类型和回归线的形状)。我们将在下一节详细讨论它们。

对于那些有创造力的人来说,如果你觉得有必要使用上述参数的组合,你甚至可以创建一个未使用的回归模型。但在开始之前,先了解以下最常用的回归方法:

1.线性回归(线性回归)

这是最著名的建模技术之一。当人们学习预测模型时,线性回归通常是首选技术之一。在这种技术中,因变量是连续的,自变量可以是连续的或离散的,回归线的性质是线性的。

线性回归通过使用最佳拟合直线(即回归线)在因变量(y)和一个或多个自变量(x)之间建立关系。

用一个方程来表示,即Y=a+b*X+e,其中a代表截距,b代表直线的斜率,e为误差项。这个方程可以根据给定的预测变量来预测目标变量的值。

7个回归分析方法!数据分析师必须掌握

一元线性回归和多元线性回归的区别在于多元线性回归有(>:1)个自变量,而一元线性回归通常只有一个自变量。现在的问题是:我们如何得到最佳拟合线?

使用最小二乘法可以很容易地解决这个问题。最小二乘法也是拟合回归线最常用的方法。对于观察到的数据,它通过最小化从每个数据点到线的垂直偏差的平方和来计算最佳拟合线。加法时,先求偏差的平方,所以正负数值不会抵消。

7个回归分析方法!数据分析师必须掌握

我们可以用R平方指数来评价模型的性能。

关键点:

自变量与因变量之间必须有线性关系多元回归存在多重共线性,自相关性和异方差性线性回归对异常值非常敏感。它会严重影响回归线,最终影响预测值

多重共线性会增加系数估计的方差,使得模型稍有变化时估计就非常敏感。结果,系数的估计值不稳定。在多个自变量的情况下,可以用向前选择法、向后淘汰法、逐步筛选法来选择最重要的自变量。

2.逻辑回归。

逻辑回归用于计算“事件=成功”和“事件=失败”的概率。当因变量的类型属于二元(1/0,真/假,是/否)变量时,我们应该使用逻辑回归。这里,y的值是从0到1,并且它可以由下面的等式表示。

赔率= p/ (1-p) =事件发生的概率/不发生事件的概率

ln(赔率)= ln(p/(1-p))

logit(p)= ln(p/(1-p))= B0+b1x 1+B2 x2+b3x 3....+bkXk

在上面的公式中,p代表具有某种特性的概率。你应该问这个问题:为什么我们在公式中使用对数?

因为我们这里用的是二项式分布(因变量),所以需要为这个分布选择最佳的连接函数。它是Logit函数。在上面的等式中,通过观察样本的最大似然估计来选择参数,而不是最小化平方和误差(如普通回归中所用)。

关键点:

它广泛的用于分类问题。逻辑回归不要求自变量和因变量是线性关系。它可以处理各种类型的关系,因为它对预测的相对风险指数OR使用了一个非线性的log转换。

为了避免过度拟合和欠拟合,我们应该包括所有重要的变量。有一个很好的方法可以保证这种情况,就是用逐步筛选法来估计logistic回归。它需要较大的样本量,因为当样本量较小时,极大似然估计的效果比普通最小二乘法差。

自变量不应相互关联,即不存在多重共线性。但是,在分析和建模时,我们可以选择包含分类变量相互作用的影响。

如果因变量的值是定序变量,则称它为序逻辑回归如果因变量是多类的话,则称它为多元逻辑回归

3.多项式回归。

对于一个回归方程,如果自变量的指数大于1,那么它就是一个多项式回归方程。等式如下:y = a+b * x ^ 2

在这种回归技术中,最佳拟合线不是直线。而是拟合数据点的曲线。

7个回归分析方法!数据分析师必须掌握

关键点:

虽然会有归纳可以拟合高阶多项式,得到更低的误差,但这可能会导致过拟合。你需要经常画关系图检查拟合情况,重点保证拟合合理,不过度拟合也不欠拟合。

这里有一个传说可以帮助你理解:

7个回归分析方法!数据分析师必须掌握

明确寻找两端的曲线点,看这些形态和趋势是否有意义。更高阶的多项式可能最终会产生奇怪的推论。

4.逐步回归

在处理多个独立变量时,我们可以使用这种形式的回归。在这种技术中,自变量的选择是在一个自动化的过程中完成的,包括非人工操作。

这项技能是通过观察统计值来识别重要的变量,如R-square、t-stats和AIC指标。逐步回归通过基于指定标准同时添加/删除协变量来拟合模型。下面列出了一些最常用的逐步回归方法:

标准逐步回归法做两件事情。即增加和删除每个步骤所需的预测。向前选择法从模型中最显著的预测开始,然后为每一步添加变量。向后剔除法与模型的所有预测同时开始,然后在每一步消除最小显着性的变量。

这种建模技术的目的是通过使用最少数量的预测变量来最大化预测能力。这也是处理高维数据集的方法之一。

5.里脊回归

岭回归分析是一种针对存在多重共线性(自变量高度相关)数据的技术。在多重共线性的情况下,虽然最小二乘法(OLS)对每个变量都是公平的,但它们的差异是如此之大,以至于观测值是偏移的,远离真实值。岭回归通过给回归估计增加一个偏离度来减少标准误差。

上面,我们看到了线性回归方程。记得吗?可以表示为:y=a+ b*x

这个方程也有一个误差项。完整的等式是:

y=a+b*x+e(误差项),[误差项是校正观测值和预测值之间的预测误差所需的值]

= & gty=a+y= a+ b1x1+ b2x2+....+e,对于多个自变量。

在线性方程中,预测误差可以分解成两个子分量。一个是偏差,一个是方差。预测误差可能是由这两个因素或其中任何一个因素引起的。在这里,我们将讨论方差引起的相关误差。

岭回归通过收缩参数λ(λ)解决了多重共线性问题。请看下面的公式:

在这个公式中,有两个组成部分。第一个是最小二乘项,第二个是β2的λ倍(β平方),其中β是相关系数。将其添加到收缩参数的最小二乘项中,以获得非常低的方差。

关键点:

除了常数项,这个回归的假设类似于最小二乘回归;它缩小了相关系数的值,但没有达到零,这表明它没有特征选择功能。这是一种正则化方法,使用L2正则化。

6.套索回归

它类似于岭回归。Lasso(最小绝对收缩和选择算子)也会惩罚回归系数的绝对值。此外,还可以减少变异程度,提高线性回归模型的精度。请看下面的公式:

套索回归与岭回归有一点不同,它使用绝对值而不是平方。这导致罚值(或约束估计的绝对值之和)使得一些参数估计等于零。使用的罚值越大,进一步的估计将使变窄值接近零。这将导致我们从给定的N个变量中选择变量。

关键点:

除常数项以外,这种回归的假设与最小二乘回归类似它收缩系数接近零(等于零),确实有助于特征选择这是一个正则化方法,使用的是L1正则化

如果一组预测变量高度相关,Lasso将选择其中一个,并将其他变量缩小到零。

7.回归(弹性网)

ElasticNet是套索和脊回归技术的混合。它使用L1进行训练,L2优先作为正则化矩阵。当有多个相关特征时,ElasticNet是有用的。Lasso会随机选择其中一个,而ElasticNet会选择两个。

套索和脊之间的实际优势是,它允许ElasticNet在圆形状态下继承脊的一些稳定性。

关键点:

在高度相关变量的情况下,它会产生群体效应选择变量的数目没有限制它可以承受双重收缩

除了这七种最常用的回归技术,你还可以看看其他模型,比如贝叶斯、生态和稳健回归。

如何正确选择回归模型?

当你只知道一两种技术时,生活往往很简单。我的老师曾经告诉我,如果结果是连续的,就使用线性回归。如果是二元的,就用logistic回归!然而,在我们的处理过程中,选择越多,选择正确的就越难。类似的情况也发生在回归模型中。

在多类回归模型中,根据自变量和因变量的类型、数据的维数以及数据的其他基本特征,选择最合适的技术是非常重要的。以下是您选择正确回归模型的关键因素:

1.数据探索是构建预测模型不可避免的一部分。

在选择合适的模型时,比如确定变量之间的关系和影响,应该是第一步。

2.对比不同模型的优势,可以分析不同的指标参数。

如统计意义上的参数,R平方,调整后的R平方,AIC,BIC和误差项,另一个是Mallows & # 39Cp标准。这主要是通过将模型与所有可能的子模型进行比较(或者仔细选择),来检查你的模型中可能存在的偏差。

3.交叉验证是评估预测模型的最佳方式。

这里,将您的数据集分成两部分(一部分用于训练,一部分用于验证)。使用观察值和预测值之间的简单均方差来衡量您的预测准确性。

4.如果您的数据集是多个混合变量,那么您不应该选择自动模型选择方法,因为您不应该希望同时将所有变量放在同一个模型中。

5.这也取决于你的目的

可能会发生这样的情况:一个不太强大的模型比一个具有高统计显著性的模型更容易实现。

6.回归正则化方法(Lasso、Ridge和ElasticNet)在高维和数据集变量之间存在多重共线性的情况下效果很好。

7个回归分析方法!数据分析师必须掌握

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/163200.html

发表回复

登录后才能评论