一、前期准备1.研究目的线性回归分析研究影响关系。回归分析本质上是研究X(自变量)和Y(因变量,数量数据)之间的影响关系。当自变量为1时,为线性回归,也称简单线
一、前期准备
1.研究目的
线性回归分析研究影响关系。回归分析本质上是研究X(自变量)和Y(因变量,数量数据)之间的影响关系。当自变量为1时,为线性回归,也称简单线性回归;当自变量为两个或两个以上时,称为多元线性回归。线性回归广泛应用于自然科学、社会科学等领域。比如吸烟、肥胖、运动等因素是否影响高血压的发病;土壤、水、光照是否影响植物生长等。
2.数据类型
线性回归要求因变量Y(被解释变量)必须是定量数据。如果因变量Y是分类数据,可以在高级方法中使用logit回归。
3.分析要求
(1)一般对一个分析项目的自变量个数没有要求,但一般建议不要一次放入过多的变量,这样容易造成多重共线性。如果需要处理哑变量,需要在SPSSAU“数据处理”中“生成变量”。您可以查看:SPSSAU虚拟变量帮助手册:
(2)正态性检验
Auss提供了多种常态测试方法,如“一般方法”中的“常态测试”;“可视化”中的“直方图”;“可视化”中的“P-P/Q-Q图”。
理论上要求线性回归中的因变量要满足“正态性”,但如果数据是问卷数据,建议跳过正态性检验。原因是问卷数据属于年级数据,很难保证正态性,数据本身变化不大,即使对数处理效果也不明显。
(3)线性趋势
线性回归模型要求自变量和因变量具有线性关系,可以通过SPSSAU中“可视化”中的“散点图”来查看。如果不是线性的,可以用SPSSAU中的曲线回归。
补充说明:相关分析和回归分析
一般来说,回归分析之前需要进行相关性分析。原因是相关性分析可以先知道有没有关系。回归分析就是研究有没有影响关系。有相关关系但不一定有回归影响关系。
第二,SPSSAU上传数据
1.上传数据
登录账号后,进入SPSSAU页面,点击右上角的“上传数据”,点击“上传文件”上传处理后的数据。
2.拖放分析项目
在“一般方法”模块中选择“线性回归”方法,将Y定量数据放在上面的分析框中,将X自变量放在下面的分析框中,点击“开始分析”。
注意:如果想一次拖放多个分析项目,可以用ctrl键间断选择多个项目,用shift键连续选择多个项目;左右拖动。
3.选择参数
检查后,可以保存残差和预测值,用于进一步分析。
第三,SPSSAU分析
背景:分析员工当期薪酬的影响因素(数据已经满足线性回归分析的要求。参考资料来源:SPSS统计分析第五版)。
1.线性回归分析的结果
从上表可以看出,模型的公式为:当前薪资=-338.130+1.750*起薪+710.927*教育程度(年)-10.009*过往经历(月)-77.206*年龄,模型的R平方值为0.803,表示起薪、教育程度(年
该模型通过了f检验(F=476.677,p = 0.000
具体分析:
(1)起薪的回归系数为1.750(t=29.259,p = 0.000 < 0.01),这意味着起薪会对现薪产生显著的正向影响。
(2)受教育程度(年)的回归系数为710.927(t=4.190,p = 0.000 < 0.01),说明受教育程度(年)会对当期薪酬产生显著的正向影响。
(3)过往经历(月)的回归系数为-10.009(t=-1.762,p = 0.079 >;0.05),也就是说过去的经历(月数)不会对现在的工资产生影响。
(4)年龄的回归系数为-77.206(t=-1.535,p = 0.126 >;0.05),也就是说年龄不影响现在的工资。
补充说明如下:
如果出现多重共线性问题,一般可有3种解决办法,一是使用逐步回归分析;二是使用岭回归分析,三是进行相关分析,手工移出相关性非常高的分析项,然后再做线性回归分析。DW值一般不用考虑时间序列可以考虑
2.模型预测法
SPSSAU提供模型预测,自变量X输入后会得到因变量Y。例如,假设某员工“起薪”为3000,“学历”为10年,过往经历为12个月,年龄为25岁,通过模型估算出当前工资约为9971元(数据结果仅供案例分析)。
3.模型结果图
可以直观的看到自变量和因变量的关系(基于回归系数)。
4.模型摘要
从上表可以看出,以起薪、受教育程度(年)、过往经历(月)、年龄为自变量,以现薪为因变量进行线性回归分析。从上表可以看出,模型的R平方值为0.803,也就是说起薪、教育程度(年)、过往经历(月)、年龄可以解释当前薪酬变动的80.3%。
5.方差分析表分析
该模型通过了f检验(F=476.677,p = 0.000
6.回归系数分析
分析表明,起薪和受教育程度(年)会对现薪产生显著的正向影响。但过往经历(月数),年龄对现在的薪资没有影响。
PS:此外,SPSSAU还提供coefPlot。
CoefPlot显示具体的回归系数值和对应的置信区间,可以直观地检查数据的显著性。如果置信区间包含数字0,说明该项不显著;如果置信区间不包括数字0,则意味着该项目是重要的。
四。常见问题解答
多个问卷量表题如何表示一个维度?
比如有两个问题“我想向朋友推荐SPSSAU”和“如果有必要我会再次使用SPSSAU”。这两个问题就是“忠”的体现。但是现在我们需要“忠诚”作为一个整体,而不是两个特定的头衔,
具体操作如下:
多重共线性问题?
VIF值用于检测共线性。一般情况下,如果VIF值小于10,则表示不存在共线性(严格标准为5)。有时,公差值被用作标准,公差值=1/VIF。因此,如果公差值大于0.1,则意味着不存在共线性(严格来说是大于0.2)。VIF和公差值之间存在逻辑对应关系,因此您可以从两者中选择一个。一般来说,你可以描述VIF价值。
如果出现多重共线性问题,一般有三种解决方法,一是使用逐步回归分析;第二种是用岭回归分析,第三种是进行相关性分析,手工去掉相关性非常高的分析项,再做线性回归分析。
控制变量如何放置?
控制变量是指可能干扰模型的项目,如年龄、学历等基本信息。从软件的角度来说,没有“控制变量”这个术语。“控制变量”是自变量,所以把它放在“自变量x”框里就行了。
线性回归有效样本量不足,需要多少样本量?
有效样本不足意味着可分析的样本数量低于方法所需的样本数量。解决方法是增加样本量。一般来说,至少要求样本量至少是变量个数的5-10倍,结果更具参考性。
回归结果看标准化还是非标准化?
标准化回归系数是剔除量纲影响后的回归系数,可以用来比较各个自变量的“重要性”。如果目的是预测模型,一般使用非标准化回归系数。
动词 (verb的缩写)摘要
线性回归分析的步骤总结如下:
第一步:首先分析模型情况,包括模型拟合情况(例如,如果R为0.3,则意味着所有X可以解释Y的30%的变化),模型共线性问题(如果VIF值小于5,则意味着不存在多重共线性),是否通过f检验(f检验用于确定X是否至少有一个影响Y,如果显著,则意味着所有X至少有一个影响Y)。
第二步:分析x的显著性,如果显著(P值判断),说明有影响关系;否则没有影响关系。第三步:判断X对y的影响,方向回归系数B的值大于0表示正向影响,反之则表示正向影响。
第四步:影响程度等其他因素(回归系数B的值与X对Y的影响程度进行比较)。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。
作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/121751.html