多重线性回归(多重线性回归的用途)

一、前期准备1.研究目的线性回归分析研究影响关系。回归分析本质上是研究X(自变量)和Y(因变量,数量数据)之间的影响关系。当自变量为1时,为线性回归,也称简单线

「SPSSAU|数据分析」:线性回归分析步骤汇总

一、前期准备

1.研究目的

线性回归分析研究影响关系。回归分析本质上是研究X(自变量)和Y(因变量,数量数据)之间的影响关系。当自变量为1时,为线性回归,也称简单线性回归;当自变量为两个或两个以上时,称为多元线性回归。线性回归广泛应用于自然科学、社会科学等领域。比如吸烟、肥胖、运动等因素是否影响高血压的发病;土壤、水、光照是否影响植物生长等。

2.数据类型

线性回归要求因变量Y(被解释变量)必须是定量数据。如果因变量Y是分类数据,可以在高级方法中使用logit回归。

3.分析要求

(1)一般对一个分析项目的自变量个数没有要求,但一般建议不要一次放入过多的变量,这样容易造成多重共线性。如果需要处理哑变量,需要在SPSSAU“数据处理”中“生成变量”。您可以查看:SPSSAU虚拟变量帮助手册:

(2)正态性检验

Auss提供了多种常态测试方法,如“一般方法”中的“常态测试”;“可视化”中的“直方图”;“可视化”中的“P-P/Q-Q图”。

理论上要求线性回归中的因变量要满足“正态性”,但如果数据是问卷数据,建议跳过正态性检验。原因是问卷数据属于年级数据,很难保证正态性,数据本身变化不大,即使对数处理效果也不明显。

(3)线性趋势

线性回归模型要求自变量和因变量具有线性关系,可以通过SPSSAU中“可视化”中的“散点图”来查看。如果不是线性的,可以用SPSSAU中的曲线回归。

补充说明:相关分析和回归分析

一般来说,回归分析之前需要进行相关性分析。原因是相关性分析可以先知道有没有关系。回归分析就是研究有没有影响关系。有相关关系但不一定有回归影响关系。

第二,SPSSAU上传数据

1.上传数据

登录账号后,进入SPSSAU页面,点击右上角的“上传数据”,点击“上传文件”上传处理后的数据。

「SPSSAU|数据分析」:线性回归分析步骤汇总

2.拖放分析项目

在“一般方法”模块中选择“线性回归”方法,将Y定量数据放在上面的分析框中,将X自变量放在下面的分析框中,点击“开始分析”。

「SPSSAU|数据分析」:线性回归分析步骤汇总

注意:如果想一次拖放多个分析项目,可以用ctrl键间断选择多个项目,用shift键连续选择多个项目;左右拖动。

3.选择参数

「SPSSAU|数据分析」:线性回归分析步骤汇总

检查后,可以保存残差和预测值,用于进一步分析。

第三,SPSSAU分析

背景:分析员工当期薪酬的影响因素(数据已经满足线性回归分析的要求。参考资料来源:SPSS统计分析第五版)。

1.线性回归分析的结果

「SPSSAU|数据分析」:线性回归分析步骤汇总

从上表可以看出,模型的公式为:当前薪资=-338.130+1.750*起薪+710.927*教育程度(年)-10.009*过往经历(月)-77.206*年龄,模型的R平方值为0.803,表示起薪、教育程度(年

该模型通过了f检验(F=476.677,p = 0.000

具体分析:

(1)起薪的回归系数为1.750(t=29.259,p = 0.000 < 0.01),这意味着起薪会对现薪产生显著的正向影响。

(2)受教育程度(年)的回归系数为710.927(t=4.190,p = 0.000 < 0.01),说明受教育程度(年)会对当期薪酬产生显著的正向影响。

(3)过往经历(月)的回归系数为-10.009(t=-1.762,p = 0.079 >;0.05),也就是说过去的经历(月数)不会对现在的工资产生影响。

(4)年龄的回归系数为-77.206(t=-1.535,p = 0.126 >;0.05),也就是说年龄不影响现在的工资。

补充说明如下:

如果出现多重共线性问题,一般可有3种解决办法,一是使用逐步回归分析;二是使用岭回归分析,三是进行相关分析,手工移出相关性非常高的分析项,然后再做线性回归分析。DW值一般不用考虑时间序列可以考虑

2.模型预测法

SPSSAU提供模型预测,自变量X输入后会得到因变量Y。例如,假设某员工“起薪”为3000,“学历”为10年,过往经历为12个月,年龄为25岁,通过模型估算出当前工资约为9971元(数据结果仅供案例分析)。

「SPSSAU|数据分析」:线性回归分析步骤汇总

3.模型结果图

可以直观的看到自变量和因变量的关系(基于回归系数)。

「SPSSAU|数据分析」:线性回归分析步骤汇总

4.模型摘要

「SPSSAU|数据分析」:线性回归分析步骤汇总

「SPSSAU|数据分析」:线性回归分析步骤汇总

从上表可以看出,以起薪、受教育程度(年)、过往经历(月)、年龄为自变量,以现薪为因变量进行线性回归分析。从上表可以看出,模型的R平方值为0.803,也就是说起薪、教育程度(年)、过往经历(月)、年龄可以解释当前薪酬变动的80.3%。

5.方差分析表分析

「SPSSAU|数据分析」:线性回归分析步骤汇总

该模型通过了f检验(F=476.677,p = 0.000

6.回归系数分析

「SPSSAU|数据分析」:线性回归分析步骤汇总

分析表明,起薪和受教育程度(年)会对现薪产生显著的正向影响。但过往经历(月数),年龄对现在的薪资没有影响。

PS:此外,SPSSAU还提供coefPlot。

「SPSSAU|数据分析」:线性回归分析步骤汇总

CoefPlot显示具体的回归系数值和对应的置信区间,可以直观地检查数据的显著性。如果置信区间包含数字0,说明该项不显著;如果置信区间不包括数字0,则意味着该项目是重要的。

四。常见问题解答

多个问卷量表题如何表示一个维度?

比如有两个问题“我想向朋友推荐SPSSAU”和“如果有必要我会再次使用SPSSAU”。这两个问题就是“忠”的体现。但是现在我们需要“忠诚”作为一个整体,而不是两个特定的头衔,

具体操作如下:

「SPSSAU|数据分析」:线性回归分析步骤汇总

多重共线性问题?

VIF值用于检测共线性。一般情况下,如果VIF值小于10,则表示不存在共线性(严格标准为5)。有时,公差值被用作标准,公差值=1/VIF。因此,如果公差值大于0.1,则意味着不存在共线性(严格来说是大于0.2)。VIF和公差值之间存在逻辑对应关系,因此您可以从两者中选择一个。一般来说,你可以描述VIF价值。

如果出现多重共线性问题,一般有三种解决方法,一是使用逐步回归分析;第二种是用岭回归分析,第三种是进行相关性分析,手工去掉相关性非常高的分析项,再做线性回归分析。

控制变量如何放置?

控制变量是指可能干扰模型的项目,如年龄、学历等基本信息。从软件的角度来说,没有“控制变量”这个术语。“控制变量”是自变量,所以把它放在“自变量x”框里就行了。

线性回归有效样本量不足,需要多少样本量?

有效样本不足意味着可分析的样本数量低于方法所需的样本数量。解决方法是增加样本量。一般来说,至少要求样本量至少是变量个数的5-10倍,结果更具参考性。

回归结果看标准化还是非标准化?

标准化回归系数是剔除量纲影响后的回归系数,可以用来比较各个自变量的“重要性”。如果目的是预测模型,一般使用非标准化回归系数。

动词 (verb的缩写)摘要

线性回归分析的步骤总结如下:

第一步:首先分析模型情况,包括模型拟合情况(例如,如果R为0.3,则意味着所有X可以解释Y的30%的变化),模型共线性问题(如果VIF值小于5,则意味着不存在多重共线性),是否通过f检验(f检验用于确定X是否至少有一个影响Y,如果显著,则意味着所有X至少有一个影响Y)。

第二步:分析x的显著性,如果显著(P值判断),说明有影响关系;否则没有影响关系。第三步:判断X对y的影响,方向回归系数B的值大于0表示正向影响,反之则表示正向影响。

第四步:影响程度等其他因素(回归系数B的值与X对Y的影响程度进行比较)。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/121751.html

发表回复

登录后才能评论