协方差分析 (ANCOVA,在多因素方差分析基础上增加调整协变量)

协方差分析(ANCOVA)是一种统计方法,结合了方差分析(ANOVA)和回归分析的特点。它主要用于比较两个或多个组间的因变量均值差异,在控制一个或多个协变量的影响后。协变量是可能影响因变量的其他变量。通过引入协变量,我们可以减少误差变异,从而更准确地评估组间因变量均值的差异。

以下是一个医学研究中应用协方差分析的例子:

假设我们要研究两种不同药物(药物A和药物B)对降低血压的效果。我们把病人分为两组,一组使用药物A,另一组使用药物B。研究期间,我们还记录了病人的年龄,因为年龄可能会影响血压水平。 在这个例子中,我们的因变量是血压降低的程度,自变量是药物类型(药物A和药物B),协变量是病人的年龄。我们想要比较在控制年龄因素后,药物A和药物B在降低血压方面是否存在显著差异。

我们进行协方差分析(ANCOVA),把年龄设置为协变量,比较调整后的血压降低数值在药物A和药物B组间是否存在显著差异。如果结果显示存在显著差异,我们可以得出结论,在控制年龄因素后,药物A和药物B对降低血压的效果具有显著差异。

通过协方差分析(ANCOVA),我们可以更准确地评估药物A和药物B对降低血压的效果,排除年龄等潜在混杂因素的干扰。这对于医学研究以及其他涉及多个影响因素的领域非常有价值。协方差分析有助于提高研究的准确性和可靠性,使得研究结果更具有说服力。

在实际应用中,协方差分析还可以用于教育、心理学、生态学、经济学等多个学科。例如,在教育研究中,我们可能想要比较两种不同的教学方法对学生学术成绩的影响,同时控制学生的家庭背景等因素。在这种情况下,协方差分析可以帮助我们更准确地评估不同教学方法的效果。

总之,协方差分析是一种强大的统计工具,可以帮助研究人员在控制潜在协变量的影响下,准确评估不同组间因变量均值的差异。

CancerStata 提供了一站式的协方差分析步骤:

  1. 数据是否适合做方差分析:提供正态性检验、QQ图、方差齐性检验;
  2. 进行协方差分析,设置因变量和感兴趣的因子,可选交互作用或不选交互作用,设置要调整的协变量;
  3. 事后检验:对各水平亚组进行两两比较,可以调整多重比较的P值,可选Tukey法,Scheffe法,Bonferroni法和Holm法
  4. 计算效应量(effect size)
  5. 计算和比较各水平亚组的估计边际平均值(Estimated marginal means)和置信区间,生成统计表,绘制统计图

准备数据

到”导入数据”页面下载示例数据看一下:

treatment是代表治疗组别的变量,这里有三个组Lev, Obs, 和Lev+5FU组。需要把变量属性设置成factor

sex是性别,也是我们感兴趣的组别变量

blood 是代表结局的变量,为连续性变量。需要把变量属性设置成numeric

其他的分类变量如hospital, obstruct等等,我们不感兴趣,只做调整用的协变量。

其他的连续性变量如age, 我们不感兴趣,为协变量。

探讨blood在调整其他协变量后,在不同治疗组、不同性别的均值的比较,就是协方差分析。

开始协方差分析

选择因变量,只能选择一个,如果菜单里没有你想要的变量,则返回去把它设置成numeric

选择代表感兴趣的组别的因子,这里我们选treatment和sex,如果菜单里没有,则返回去把你想要的组别变量设置为factor

选择交互作用,每点击一次”增加交互作用项”按钮,就可以增加一个交互作用项菜单,在菜单里选两个以上的变量,就能将其合成交互作用项。这里我们合成一个treatment:sex。如果选错了要修改,可以点击”重置清零”按钮。

选择不感兴趣,用来做调整的协变量:这里hospital, age, obstruct, perfor可能对结局有影响,但不是我们研究感兴趣的研究变量,因此勾选用来做协变量调整。

使用条件判断:

这里可以勾选正态性检验和方差齐性检验等。

检验结果如下:

正态性检验仅供参考,P<0.05提示正态性不好,但即使正态性不佳,也可以做方差分析;

方差齐性检验,P<0.05时提示可能方差不齐;

Q-Q图是针对标准化残差做的,如果不太偏离这条直线,说明残差呈正态分布,可以做方差分析。

如果都不满足,可以考虑给因变量取对数或开平方后,再进行检测和做方差分析,

如果还不行,考虑非参数检验。

方差分析的选项

这里可以选择平方和(ss)的类型,默认选类型3;

可以选择是否计算effect size, 这里给了常见的三个参数;

也可以选择是否显示整体模型检验的参数

分析结果:

这里根据前面的选择,所选的因子、交互作用和协变量都做了协方差分析,显示了平方和、均方、F值和P值,这里P值小于0.05表示该因素不同水平的blood均值的差异有统计学意义。而effect size则客观描述了标化量纲之后的效应大小。

事后检验

如果有些因子有三个组或以上,如这里的treatment就有三个组,则可以选择做事后检验进行两两比较。

三个组以上两两比较时,需要对P值进行校正,这里提供了Tukey法,Scheffe法,Bonferroni法和Holm法;如果只有两个组,则校正和不校正的P值没有区别。

另外,可选计算cohen’s d效应量及其置信区间。

事后检验的结果如下:

事后检验比较重要的参数是两组之间的差值Mean Difference (adjusted) 和SE,以及调整后的P值。

注意:表里的95% CI是Cohen’s d的可信区间,不是Mean Difference的可信区间。

估计边际平均值

所谓边际均值,就是在控制了其他因素之后,只是单纯在一个因素的作用下,因变量的变化。

举个简单的例子,如果只有一个自变量时,计算出来的边际均值和普通均值是一样的;当有两个及以上自变量时,计算边际均值和普通均值的出来的结果是不同的。

点击勾选需要计算边际均值的分组变量,交互作用也可以选。

分析结果如下:

这里的统计图,上下两条误差线可以用SE,也可以用置信区间表示。

统计表的解读:

例如三个治疗组,Lev+5FU、Obs、Lev 各自的blood边际均值和95% CI都可以在第一个表中找到;

两个性别,Female 和 Male各自的blood边际均值和95% CI可以在第二个表中找到;

而第三个表,交互作用表中,则有3*2=6个亚组,如男性接受Lev+5FU治疗组,blood边际均值为58.79

统计图的解读:

中间的圆点是均值,上下两条线是误差线。

在最后一个交互作用图中,横坐标是treatment, 图例分组是sex, 如果想颠倒过来,在选择边际均值项的菜单中,可以先选sex, 再选treatment, 图像的交叉顺序是根据菜单选择顺序来排列的。treatment:sex和sex:treatment在图像排列上有所不同。

下载报告

点击下载word文件即可

讨论:

  • 方差分析对数据非正态性具有一定的耐受力,如果数据不是严重偏态或者只有部分组别数据不满足正态性要求,出于参数检验的统计学效能优于非参数检验的角度,还是可以使用方差分析方法,而不使用非参数检验。

  • 多重比较一般分为事前检验(Prior tests)和事后检验(Post hoc tests)。事前检验是指在数据收集之前便决定了要通过多重比较来考察多个组与某个特定组之间的差别,多根据专业意义设定比较的策略。如果是事前检验,不论整体分析的结果如何,均可进行比较,并且一般不需要对检验水准进行太多修正。事后检验只有在方差分析得到有统计学意义的F值后才有必要进行,是一种探索性分析。对于事先未计划的多重比较(即事后检验),各组间的差别只是一种提示,要确认这种差别最好重新设计实验。

  • 事后检验提供了”Tukey”法、“Scheffe”法、“Bonferroni”法和”Holm”法四种方法,均为在方差齐时使用。其中”Bonferroni”法为对检验水准的严格校正,校正后的检验水准为原始检验水准除以比较次数,当两两比较的次数较多时,结果偏保守。“Holm”法对检验水准的校正程度不如”Bonferroni”法严格,结果更为稳健。Scheffe法的检验效能优于Bonferroni法。Tukey法使用时需要样本数目相同,并可能产生较多的假阴性结果。