列联表分析

列联表(Contingency Table),又称交叉表、列联表分析,是用于表示两个或多个分类变量之间关系的表格。在医学研究中,列联表广泛应用于疾病与风险因素、治疗方法与疗效等方面的关联性分析。

例如,通过卡方检验(Chi-square test)评估吸烟是否与肺癌的发病率相关,或者通过趋势检验(Trend test)研究不同剂量药物治疗对疾病恢复的影响。

CancerStata 为列联表分析提供了全面且强大的功能支持,以下是其主要功能介绍:

  1. 多种假设检验方法:MSTATA支持χ²检验、连续性校正χ²检验、似然比(Likelihood ratio)检验、Fisher’s 精确检验和Z检验等方法,以满足不同场景和数据类型的需求。

  2. 自定义假设检验类型:用户可以根据研究目的,自主选择双侧检验(two-tailed test)或单侧检验(one-tailed test)。

  3. 效应量估计:MSTATA可以计算比值比(Odds Ratio, OR)、对数比值比(Log OR)、相对危险度(Relative Risk, RR)、两组发生率差值(Risk Difference, RD)等效应量,并给出相应的置信区间。

  4. 设置置信水平:用户可以根据需要自行设定置信水平(Confidence Level),如95%或99%等。

  5. 计算列联系数:对于无序分类变量,MSTATA能计算φ系数(Phi coefficient)、Cramer’s V系数等列联系数;对于有序分类变量,MSTATA支持计算Gamma系数、Kendall’s Tau-b系数等趋势检验指标。

  6. Mantel-Haenszel趋势检验:MSTATA支持Mantel-Haenszel趋势检验,用于评估具有有序分类变量的列联表中的趋势关系。

  7. 选择分层因素,自动分层分析。

  8. 可视化分析:MSTATA能绘制列联表的统计条图,直观地展示分类变量之间的关系。

准备数据

到”导入数据”页面下载示例数据看一下:

Treatment, Age, Sex 都是分类变量,代表分组因素

Effect是疗效,也是分类变量

Stage 是数字,但是不是连续性变量,我们认为是一个分类,但是每个分类之间有数量关系,所以这里是一个有序分类变量,导入MSTATA后,需要设置为factor,后续在趋势检验中有用。

如果没有原始的个体数据,只有四格表或者列联表的频数:

则按照这样的格式准备数据,多出一个变量Frequency表示频次,导入软件后将其设置为频次或权重即可。

开始列联表分析

选择变量:

用原始数据做分析,选择行变量,和列变量,例如:

也可以选择分层变量进行分层分析。

如果没有原始数据,只有频数表,则选择频数变量,例如:

列联表统计的参数

请勾选需要计算的参数,说明如下:

χ²(卡方检验,Chi-square test)

定义:卡方检验是一种非参数检验方法,用于评估两个分类变量之间的关联性或独立性。

使用条件:适用于n×m列联表,无序分类变量。

场景和临床应用:在医学研究中,卡方检验常用于评估疾病与风险因素、疗效与治疗方法等之间的关系。

连续性校正χ²(Continuity-corrected Chi-square)

定义:连续性校正卡方检验是卡方检验的一种修正方法,用于修正列联表中离散数据的近似误差。

使用条件:适当列联表大于2×2时,当总N值(在列联表中评估的总样本量)小于40时,需要使用Yates连续性校正来补偿理论概率分布(平滑)与实际观察值之间的偏差。

似然比(Likelihood ratio)

定义:似然比是一种比较两个模型拟合数据优度的方法,通常用于参数估计和假设检验。

使用条件:适用于n×m列联表。

场景和临床应用:在医学研究中,似然比检验用于评估诊断试验、疗效与治疗方法等之间的关系。

Fisher’s 精确检验(Fisher’s Exact Test)

定义:Fisher’s 精确检验是一种非参数检验方法,用于评估两个分类变量之间的关联性或独立性。

使用条件:适用于n×m列联表,特别是当超过20%的单元格期望频数小于5时,使用近似方法可能不准确,此时需要使用Fisher’s 精确检验。Fisher’s 精确检验通过应用列联表中各单元格数值的超几何分布来评估独立性的原假设。

场景和临床应用:在医学研究中,Fisher’s 精确检验常用于评估稀有疾病与风险因素、疗效与治疗方法等之间的关系,尤其在样本量较小或期望频数不满足卡方检验条件的情况下。

Z检验(Z-test)

定义:Z检验是一种基于正态分布的参数检验方法,用于比较两个比例或比较一个比例与一个已知的参考值。

使用条件:适用于n×m列联表,适用于大样本数据,且样本分布近似正态分布。通常,当样本量较大且单元格中的期望频数足够大(大于5)时,Z检验的结果与卡方检验的结果相似。

场景和临床应用:在医学研究中,Z检验常用于评估疗效与治疗方法、疾病与风险因素等之间的关系,尤其在样本量较大且数据分布近似正态的情况下。

结果如下:

假设检验类型:

  1. 双侧检验(Two-tailed test)

定义:双侧检验是一种假设检验方法,用于评估观察差异的显著性,不论差异的方向。在双侧检验中,我们同时考虑了两个方向的极端值。

使用场景:当研究者对差异的方向没有预期或假设,或者对差异的方向不感兴趣时,使用双侧检验。例如,研究者希望检验两种药物的疗效是否有显著差异,但并不关心哪一种药物疗效更好。

功能:双侧检验主要用于评估两组之间的差异是否显著。例如:组1 ≠ 组2。

  1. 单侧检验(One-tailed test)

定义:单侧检验是一种假设检验方法,用于评估观察差异的显著性,只关注差异的一个方向。在单侧检验中,我们仅考虑一个方向的极端值。

使用场景:当研究者对差异的方向有明确预期或假设时,使用单侧检验。例如,研究者希望检验某种药物是否比对照组更有效。

功能:单侧检验主要用于评估两组之间的差异是否显著且符合预期的方向。例如:组1 > 组2 或 组1 < 组2。

总之,选择单侧检验还是双侧检验取决于研究者的预期和假设。在实际研究中,如果对差异方向有明确预期,可以使用单侧检验;否则,使用双侧检验更为保守且可靠

测量值

可以勾选需要计算的测量值:

测量指标的介绍:

  1. 比值比(Odds Ratio, OR)

定义:比值比是一种用于量化两个事件A和B之间关联强度的统计量。比值比定义为在B存在时A的几率与在B不存在时A的几率之比,或等效地(由于对称性),在A存在时B的几率与在A不存在时B的几率之比。两个事件相互独立当且仅当比值比等于1,即一个事件在另一个事件存在或不存在时的几率相同。如果比值比大于1,则表示A和B之间存在关联(相关),相较于B不存在的情况下,B存在时A的几率增加,同样地,A存在时B的几率增加。相反,如果比值比小于1,则A和B之间呈负相关,一个事件的存在降低了另一个事件的几率。

功能:评估两组之间事件发生概率的相对差异。

使用案例:在研究吸烟与肺癌发病率的关系时,可以计算吸烟者与非吸烟者发生肺癌的比值比,以评估吸烟对肺癌发病率的影响。

  1. 对数比值比(Log Odds Ratio, Log OR)

定义:对数比值比是比值比的自然对数。将比值比取对数可以使其更接近正态分布,便于进行参数估计和检验。

功能:用于比较两组之间事件发生概率的相对差异,便于进行参数估计和检验。

使用案例:在分析药物疗效的临床试验中,可以计算实验组和对照组的对数比值比,以评估药物对治疗效果的影响。

  1. 相对危险度(Relative Risk, RR)

定义:相对危险度是一种用于比较两组之间事件发生的相对风险的指标。它表示一组中事件发生的概率与另一组中事件发生的概率之间的比值。

功能:评估两组之间事件发生风险的相对差异。

使用案例:在研究高血压患者与非高血压患者心脏病发病率的关系时,可以计算高血压患者与非高血压患者发生心脏病的相对危险度,以评估高血压对心脏病发病风险的影响。

  1. 两组发生率的差值(Risk Difference, RD)

定义:两组发生率的差值是一种用于比较两组之间事件发生的绝对差异的指标。它表示一组中事件发生的概率与另一组中事件发生的概率之间的差值。

功能:评估两组之间事件发生风险的绝对差异。

使用案例:在评估某种疫苗的有效性时,可以计算接种疫苗组和未接种疫苗组发生某种疾病的发生率差值,以评估疫苗的预防效果。

结果如下:

无序分类变量和有序分类变量的统计指标:

  1. 无序分类变量的统计

a. 列联系数(Contingency coefficient)

定义描述:列联系数是一种用于度量列联表中两个无序分类变量间关联强度的指标,其取值范围为0到1,值越接近1表示关联程度越高。

功能描述:评估两个无序分类变量间的关联程度。

使用场景案例描述:在研究患者的性别与某种疾病(如高血压)的关系时,可以使用列联系数来衡量性别与疾病之间的关联程度。

b. φ系数(Phi coefficient)和 Cramer’s V系数

定义描述:φ系数和 Cramer’s V系数都是衡量列联表中两个无序分类变量间关联强度的指标。φ系数适用于2×2列联表,而Cramer’s V系数适用于n×m列联表。它们的取值范围为0到1,值越接近1表示关联程度越高。

功能描述:评估两个无序分类变量间的关联程度。

使用场景案例描述:在研究某种疾病(如糖尿病)与患者的生活习惯(如饮食、运动)之间的关系时,可以使用Cramer’s V系数来衡量这两个无序分类变量之间的关联程度。

  1. 有序分类变量的统计

a. Gamma系数

定义描述:Gamma系数是一种用于度量两个有序分类变量间关联强度的指标,其取值范围为-1到1。正值表示正相关,负值表示负相关,绝对值越接近1表示关联程度越高。

功能描述:评估两个有序分类变量间的关联程度。

使用场景案例描述:在研究患者癌症分期与预后生存状态的关系时,可以使用Gamma系数来衡量这两个有序分类变量之间的关联程度。

b. Kendall’s Tau-b系数

定义描述:Kendall’s Tau-b系数是一种用于度量两个有序分类变量间关联强度的指标,其取值范围为-1到1。正值表示正相关,负值表示负相关,绝对值越接近1表示关联程度越高。

功能描述:评估两个有序分类变量间的关联程度。

使用场景案例描述:在研究疼痛评分与镇痛药物剂量之间的关系时,可以使用Kendall’s Tau-b系数来衡量这两个有序分类变量之间的关联程度。

c. Mantel-Haenszel趋势检验

定义描述:Mantel-Haenszel趋势检验是一种用于分析有序分类变量在分层数据中的关联趋势的统计方法。它可以帮助研究者评估有序分类变量之间的关联是否具有一致性。

功能描述:评估有序分类变量在分层数据中的关联趋势,以确定其关联一致性。

使用场景案例描述:在研究多个年龄层次的患者中,药物治疗有效性与疾病严重程度之间的关系时,可以使用Mantel-Haenszel趋势检验来评估在不同年龄层中,药物治疗有效性与疾病严重程度之间的关联趋势是否一致。

结果如下:

列联表的外观选项:

可以自定义需要展示的内容,结果如下:

分层分析:

如果需要分层,请选定分层变量:

例如,选择以Age分层。

结果如下:

统计作图

完成卡方检验之后,可以到下一个页面作图:


结果如下: