ols回归模型(ols回归怎么做)

在某些情况下,被解释变量Y的取值范围会受到限制。比如在研究家庭医保支出的影响因素时,某个家庭没有医疗支出,即所有数字都是0,或者在研究家庭收入水平时,有的样本家

在某些情况下,被解释变量Y的取值范围会受到限制。比如在研究家庭医保支出的影响因素时,某个家庭没有医疗支出,即所有数字都是0,或者在研究家庭收入水平时,有的样本家庭根本没有收入,所以收入都是0,或者如果其中一个数据调查显示收入超过10万,那么超过10万的具体数据会被截断(不超过10万,最多10万), 比如研究存款的影响因素,但是有的样本存储为负数(即不存储为负债),等等。 按照常理,它们应该是正态的正态数据,但它们的解释变量有‘断层’(删除),可以用Heckman的两阶段模型(而不是ols线性回归)来研究。

1 背景

目前有一个关于薪酬影响因素的研究,解释变量是薪酬,解释变量是GRE成绩,但是会出现一个问题,就是薪酬有很多缺失数据(即样本偏差的内生性问题)。一种处理方法是直接过滤掉缺失数据进行分析,但这种分析只是避免了样本选择偏差的内生性问题。如果要面对这种样本选择偏差的内生问题,可以考虑使用赫克曼的两阶段模型。另外,GPA成绩可能会影响‘有无薪资’的数据,可以作为‘有无薪资数据’的解释变量。为了更方便的查看被解释的可变工资的数据分布,制作工资直方图如下:

ols回归模型(ols回归怎么做)插图

从上图可以清楚的看到,数字被删除了,也就是部分数据集中在数字0中(数字0表示没有工资数据,当然也可以用空值表示,但是在赫克曼两阶段模型中需要用数字0来表示没有这个数据)。当然,在分析过程中,可以考虑筛选出编号大于0的数据,然后进行ols线性回归(但这只是为了避免可能出现的样本选择偏差的内生问题)。如果薪金大于0,则做如下直方图:

ols回归模型(ols回归怎么做)插图(1)

很明显,工资大于0的数据是筛选出来的,明显服从正态分布,所以ols线性回归非常适合。但本案例使用了赫克曼的两阶段模型来解决样本选择偏差导致的样本内生性问题。

2 理论

在赫克曼的两阶段模型中,被解释变量(因变量)Y有缺失数据。通常解释的变量首先需要设置为0和1,0代表删除(即没有这样的数据),1代表不删除(即有这样的数据),从而获得一个新的变量。比如这个案例是‘工资(0代表没人代表是)’,分两个阶段。解释如下:

第1阶段:二元probit回归模型;即将薪资(且为01项二元数据)作为被解释变量,并且纳入解释变量(一般情况下,解释变量为核心研究解释变量与工具变量),进行二元probit模型后,得到IMR值(Inverse Mill's Ratio)。第2阶段:ols回归模型,将‘薪资’作为被解释变量,并且模型会自动纳入第1阶段得到的IMR值,以及研究的核心解释变量进行分析,并且在第2阶段分析时,会自动过滤出‘未删失’即薪资没有缺失的数据,并且得到结果。针对分析上:如果IMR值呈现出显著性(p<0.05),即意味着存在样本偏差内生性问题,也即说明有必要使用Heckman两阶段模型进行分析,反之如果IMR值没有呈现出显著性(p>0.05),即意味着样本偏差内生性问题不严重(或不存在),此时可考虑使用 Heckman两阶段模型(或者ols回归均可)。另heckman两阶段模型分析上依旧是针对解释变量的显著性进行分析即可,并无其它特别点,其核心应用为处理样本选择偏差带来的内生性问题。3 操作

本案例操作截图如下:

ols回归模型(ols回归怎么做)插图(2)

SPSS进行两阶段heckman模型时,有四个框和两个参数,解释如下:

项目

名字

解释

一个

Y1(阶段1,01变量)

第一阶段二元probit回归的解释变量只能是0和1。这种情况是“薪金(0表示否,1表示是)”。

2

十(第一阶段)

二元probit回归第一阶段的解释变量,在本例中为GPA分数’和GRE分数’。

Y2(第二阶段,定量)

第二阶段ols回归的解释变量,这个案例是‘薪水(10,000)’。

十(第二阶段)

第二阶段ols回归的解释变量,这个案例是‘GRE score’。

保存预测值和残差。

选中后,系统会自动生成一个新标题,用来存储第一阶段和第二阶段的预测值和残差,共4项。

保存IMR值

选中时,系统会自动生成一个新标题,用于存储第一阶段后计算的IMR值,共1项。

特别说明:

第1阶段的Y1即01二元数据,其为第2阶段的Y2进行数据编码得到,可使用数据处理->数据编码功能处理,数字0代表删失(即没有薪资数据),数字1代表未删失(即有薪资数据);本案例时第1阶段和第2阶段的X中,都有‘gre成绩’,二者完全一样,如果上传数据仅1项,此时可通过数据处理->生成变量功能里面的平均值功能(自己平均就是自己),复制一个完全相同的数据;本案例时第1阶段中有2个X,分别是‘gre成绩’和‘gpa’成绩,该两项可能影响到‘是否有薪资’数据,所以纳入该两项,具体应以实际研究为准即可;通常情况下并不需要保存预测值和残差,也或者IMR值。4 SPSSAU输出结果

SPSS共输出6种表格,说明如下:

表名

解释

赫克曼两阶段模型模型综述

赫克曼两阶段模型的基本描述,包括被解释变量和被解释变量列表。

研究数据的基本摘要

显示已删除数据或缺失数据的详细信息等。

第一阶段分析结果汇总(二元概率单位回归)

二元probit回归模型第一阶段结果汇总。

第二阶段分析结果(OLS回归)

第二阶段ols回归模型结果汇总。

阶段1(二元概率单位回归)分析结果摘要-简化格式

二元probit回归模型第一阶段简化结果汇总。

第二阶段(OLS回归)分析结果-简化格式

第二阶段ols回归模型简化结果汇总。

5 文字分析

ols回归模型(ols回归怎么做)插图(3)5文本分析

上表显示了赫克曼两阶段模型的基本情况,包括第一阶段和第二阶段分别对应的被解释变量和解释变量。

ols回归模型(ols回归怎么做)插图(4)

上表是赫克曼两阶段模型研究的基础数据。第一阶段的解释变量salary中有6548个删除数据(即位数为0)和3452个未删除数据(即位数为1)。并且数据中没有其他缺失数据。

ols回归模型(ols回归怎么做)插图(5)

上表显示了第一阶段二元probit回归的结果,包括模型的R平方值、似然比检验、各解释变量的显著性等。实际上,第一阶段二元probit回归结果的显著性很小(很多时候不关注R-square、似然比检验、显著性等指标),因为第一阶段二元probit回归的目的是计算IMR值并带入第二阶段OLS回归。上表中的gre成绩和gpa成绩都在0.01的水平上显著,也就是说这两项真的会影响是否有薪资数据缺失。

ols回归模型(ols回归怎么做)插图(6)

上表是Heckman第2阶段的ols回归结果,表中默认包含IMR值,这是第1阶段回归得到的中间过程值。如果IMR值显著(P < 0.05),说明存在样本偏差的内生问题,说明有必要使用Heckman两阶段模型进行分析;如果IMR值不显著(p & gt0.05),说明样本偏差的内生问题不严重(或者不存在)。这时候可以考虑使用赫克曼两阶段模型(或者ols回归)。

从上表可以看出,IMR值显著(p=0.001),说明存在样本偏差的内生性问题,说明需要使用赫克曼的两阶段模型进行分析。接下来具体分析,gre成绩的回归系数值为0.022,P值为0.000,小于0.01,说明gre成绩会对薪资(万)产生显著的正向影响。

分析表明,gre成绩会对薪资产生显著的正向影响,也就是说gre成绩越高,薪资就越高。

ols回归模型(ols回归怎么做)插图(7)

上表是第一阶段Heckman二元probit回归的简化结果表,列出了模型的关键信息点,可以直接使用。

ols回归模型(ols回归怎么做)插图(8)

上表是第二阶段Heckman的ols回归的简化结果表,列出了模型的关键信息点,可以直接使用。

6 剖析

涉及以下几个要点:

提示‘Y值只能为0或1’,第1阶段二元probit回归时,被解释变量Y只能包括数字0和1,数字0代表未删失,数字1代表删失。7 疑难解惑heckman两阶段模型的原理?

赫克曼的两阶段数学模型分为两个阶段。第一阶段是二元probit模型,得到IMR值。第二阶段是ols回归,模型默认包含第一阶段的IMR值和第二阶段的解释变量。第一阶段的被解释变量(因变量)y只能包含数字0或1,第二阶段ols回归中的样本量是过滤掉y为1(即未删除)的第一阶段样本量的样本量。

heckman两阶段模型时第1阶段和第2阶段的被解释变量(因变量)Y是否一致?

通常第一阶段和第二阶段的被解释变量(因变量)具有相同的Y含义,但数字不同。第一阶段,Y数只能是0或1,0代表样本缺失,1代表样本存在,第二阶段,Y数代表其真实意义。简而言之,通常通过处理第二阶段Y来获得第一阶段Y。

IMR值的意义?

IMR是用于校正样本选择偏倚的值,在heckman的两阶段模型的第一阶段计算。

IMR值是否显著的意义?

如果IMR值显著,则说明样本偏差问题存在,也就是说,利用赫克曼两阶段模型来修正样本选择偏差是合适的,也是必要的。另一方面,如果IMR值不显著,则可能意味着模型中不存在严重的样本选择偏差,这意味着第二阶段模型的结果应该与普通ols回归的结论基本一致。研究者可以使用spssau测量模块中的ols回归进行分析比较,这意味着当IMR值不显著时,一般可以使用ols回归或heckman两阶段模型。

heckman两阶段模型时第1阶段的解释变量X应该包括那些变量?

一般来说,第一阶段模型中的解释变量应该是“可能影响样本偏差的变量”。按照具体研究者的思路,spssau系统第一阶段和第二阶段的解释变量X是完全可以分开的。

heckman两阶段模型时第2阶段的解释变量X应该包括那些变量?

第二阶段的解释变量是核心研究解释变量,放进去就好了。

heckman两阶段模型时同一变量不同放入2个框中?

在赫克曼两阶段模型中,第一或第二阶段可能放入相同的变量,但一个盒子中只能放一个变量。建议使用'数据处理->:生成变量的平均值',可以先得到一个数据相同的新变量,也可以上传两个相同变量项的数据。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/93604.html

发表回复

登录后才能评论