样本量的计算方法(样本量的计算方法)

医学研究样本量的估计是一件大事。近年来,回归分析的样本容量问题引起了人们的关注。无论如何研究影响因素,控制混杂因素,或者建立预测模型,总有人会想,“我的样本量够

医学研究样本量的估计是一件大事。近年来,回归分析的样本容量问题引起了人们的关注。无论如何研究影响因素,控制混杂因素,或者建立预测模型,总有人会想,“我的样本量够吗?”

回归分析需要样本大小或自变量的数量。一定的样本量只允许一定数量的自变量进入模型,否则就会超载,模型构建不成功!

我不止一次提到回归分析样本量的问题。上周有一次回归样本量的统计咨询,引发了很多朋友的讨论:统计问答(1):正态性、亚组分析、logistic回归样本量等。

回归分析对样本量的要求是什么?在回归分析中,有一个概念是样本量是自变量数量的10倍以上,在英语中是指每个变量10个事件(10个EPV)。这一概念得到了国内外学者的广泛传播和认可。近年来,大量文章认为这种方法不严谨——的确,没有这种绝对的说法。但在实践中,没有更简单的方法来指导回归分析的样本容量计算,所以10 EPV仍然是最被认可的方法。

现在我用BMJ 2020年3月18日发表的一篇论文中的一段话来解释回归分析的样本量估计。它解释了10 EPV的概念,并指导如何使用10 EPV来测量样本量。

1.对于定量变量的结果(尤其是连续数据),如果需要进行线性回归分析,有效样本量直接由观察对象的总数决定。例如,如果一项研究的总样本量为200例,如果定量结果是血压值,那么线性回归分析将允许20个自变量同时进入模型。

2.一般对两类结果进行逻辑回归分析。关于样本量,目前网上流传的概念是超过逻辑回归所要求的正数的5-10倍。其实这个概念并不严谨!真正有效的样本量将根据两类结果中观察到的两类结果的最小值来确定。例如,基于对200名受试者的分析,120例有高血压,80例没有高血压。在这种情况下,正数是120,但实际上,两类结果的负数只有80,这是一个很小的值。因此,有效样本量为80例。根据10 EPV原理,logistic只允许8个(而不是12个)自变量同时进入模型。

3.生存时间的结局是另一个故事。Cox回归常用于生存数据的回归分析。一般来说,生存分析的样本测量是以事件数为基础的!这里的事件数是一般意义上的正事件数。比如对200名高血压患者随访5年,其中120人有心血管疾病,那么就可以以120人的数据为标准,将自变量的个数纳入回归分析。

4.另外,这里还得介绍一下回归分析中自变量的概念。自变量不等于数据库中的一个变量,自变量的个数会因回归模型不同而变化。比如需要哑变量,存在交互作用效应时,自变量数量增加。

首先,当分类变量考虑哑变量时,情况更复杂。例如,变量种族(分为三个等级:白人、黑人和其他种族)在一般回归模型中需要哑变量。在回归分析中,种族这个变量会被转换成两个自变量(是不是黑人,是不是其他种族)。一个分类变量的类别越多,形成的自变量就越多。

第二,如果要讨论交互作用,还应该增加自变量的数量。如果它与设置哑变量的自变量相互作用,自变量的数量就会增加。

一个困扰已久的问题:回归分析样本量如何确定?

例如,上表显示了逻辑回归分析的结果。它是种族的哑变量,与母亲年龄同时进行交易分析。此时种族产生两个自变量,与母亲年龄的交互作用也产生两个自变量,结果是1*2。如果设置两个带哑变量的变量进行事务性分析,那么生成的自变量个数可能是3*2,3*3甚至更多!

所以回归分析中自变量的个数不是原始变量的个数,而是回归分析中要呈现的个数。

5.回归分析:不同的变量筛选方法会影响自变量的个数还是样本量?

一般来说,回归分析中的自变量个数不是建模成功的自变量个数,而是候选自变量的个数,即考虑哑变量和交互项后要包含在模型中的自变量个数。当然,有时候真的没有办法——样本量真的很小——逐步回归可以输入更多的变量吗?可以,选择前进一步和双向一步,而不是后退一步。简单的数据模拟分析表明,如果建模成功后正向逐步和双向逐步方法留在模型中的自变量数量较少,回归分析可以考虑更多的候选自变量。因为,在这两种方法的建模过程中,并不是一口气包含了所有的候选自变量,所以可以避免因样本量过大而导致的过载现象。

6.有效样本量一般建议为自变量个数的10倍以上,但这不是绝对的。统计学家也提到了5-10倍以上的概念,表明5倍以上是可能的。所以10倍以上的概念可以作为参考,接近或者超过比较合适。

7.对于有多个自变量的小样本,如何筛选自变量?

在这方面,常规的方法是先单因素再多因素。这个估计很多人都知道,我就不多说了。相反,我想说的是,不是所有的回归分析都采用单因素先于多因素的策略。出现这种想法是因为样本量小,自变量多。如果样本量较大但自变量个数不多,则无需采用单因素后多因素,可采用直接多因素回归分析。

对于小样本多自变量的研究,我认为主流的方法是将必要的自变量纳入模型。必要自变量是指理论上是研究结果的因果变量。在建立回归分析之前,我们必须认真考虑哪些是可能的因果变量,哪些可能是混杂变量,哪些可能是中介变量。你不能什么都不管,把所有的脑子都投入进去,或者把所有的脑子都投入到一个单一的因素里,然后再投入到很多因素里。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/49192.html

发表回复

登录后才能评论