对数线性回归
对于分类变量,常用卡方检验进行数据分析,但卡方检验更多的应用于二维列联表的情形,若列联表维度更高,如要同时研究多个分类变量间的关系,卡方检验显然不够,因为它不可能为多个分类变量间的关系给出一个系统而综合的评价,也不可能在控制其他因素作用的同时,对变量的效应作出估计。此时,除了用logistic回归模型分析之外,也可以考虑采用对数线性模型这一多元统计分析方法来研究多个分类变量之间的关系。
对数线性模型将列联表资料中各个格子理论频数的自然对数表示为各个分类变量的主效应,以及各个分类变量之间交互效应的线性模型。通过迭代计算估计模型中的参数,应用方差分析的思想,检验各分类变量的主效应和交互效应的大小。此时,不区分因变量和自变量,强调的是模型的拟合优度检验和分类变量间交互效应的检验。
以下是一个医学研究中应用对数线性回归的例子:
假设我们要研究某种疾病的发病与年龄段、性别和治疗方式之间的关系。在这个例子中,我们可以运用对数线性回归模型来分析这些分类变量之间的关联,从而为进一步的研究提供依据。
MSTATA 统计软件中的对数线性回归模块提供了对数线性回归的全面功能,包括:
设置因子:可根据研究目的设置一个或多个分类变量。
支持交互作用项:可以分析分类变量间的交互作用对关联的影响。
设置分类自变量的参照水平:方便进行多水平分类变量的比较。
显示模型系数的置信区间、RR 值、RR 值的置信区间:方便对各分类变量的关联程度进行评估。
Omnibus 似然比检验:检验模型整体的显著性。
模型拟合优度评价:包括 Deviance、AIC、BIC、McFadden’s R²、Cox & Snell’s R²、Nagelkerke’s R²、χ²、df 和 p-value。
做估计边际平均值统计图表:包括生成预测频数及其不确定性的图表。
通过 MSTATA 对数线性回归模块,您可以轻松地进行多分类变量关联分析,并获得全面的统计结果。这有助于为您的研究提供定量信息,以及用于评估模型拟合优度和显著性的各种指标。
准备数据
可按照下面的格式准备数据(网站上可下载,下载后在此基础上修改):
打开如下图:
本样例数据的规则:
变量有两种,连续性变量(值是连续数据,它可以在变量值所属区间内任意进行取值,如年龄[岁]、血糖值、人的身高、智商等)以及分类变量(是说明事物类别的一个名称,其取值是分类数据。如”性别”就是一个分类变量,其变量值为”男”或”女”;“行业”也是一个分类变量,其变量值可以为”零售业”、“旅游业”、“汽车制造 业”等),在本例中 Age和Blood_test是连续性变量(numeric), 其他的是分类变量(factor)。
在对数线性回归中,只纳入分类变量,类似多维度的列联表概念。
上传和导入数据
进入”导入数据”页面,点击Browse按钮上传文件,最好是.CSV文件为佳。然后务必要点击最下方的”import data” 按钮。
字段的选择和处理
数据导入之后,可以对字段做一些修改和调整:
然后在这个页面,哪怕你什么也没修改,也务必要点击”Apply Changes” 按钮,才能进入下一个页面,否则进行不下去。
选择患者
进入”选择患者” 页面,如果要选取一部分患者做亚组分析的话,在这个页面做选择和调整。
调整因子顺序
分类变量的亚组,在统计图、表中都有出现的顺序,其顺序可以人为调整:
用拖拽的方式可以调整亚组排列的顺序,排在左边的,在后续统计表中都位于上方或左方。最左边的通常会设为参照组。这里可以随时回来调整。
对数线性回归分析
下一步就是对数线性回归分析啦:
使用方法和步骤如下:
在”请点击空白框选择因子,多选”框中选择多个因子,这些因子将用于对数线性回归分析。
点击”增加交互作用项(可多次点击)“按钮,可以为模型添加交互项。可以多次点击以添加多个交互项。
点击”重置清零”按钮,清除已添加的交互项。
选择要作为参照组的非数值因子。
选择表示权重(频数)的变量(可选项)。
选择模型拟合优度评价的指标,如离差(deviance)、AIC、BIC、模型整体检验和伪R²(pseudo-R²)。
选择是否显示模型系数的置信区间,RR值和RR值的置信区间。
选择Omnibus检验的方法。
选择做边际平均值统计图表的方式,可以是对每个因素逐个单独做边际平均值统计图表,也可以是把多个因素交叉组合在同一个统计图表上展示边际平均值。
根据选择的边际平均值统计图表方式,选择因子或因子组合。
选择是否显示置信区间,如果显示,可修改置信水平。
调整统计图的宽度和高度。
最后点击”开始进行对数线性回归”按钮,程序将根据选择的设置进行对数线性回归分析。
在整个过程中,用户可以通过选择不同的因子、交互项和其他设置来自定义对数线性回归模型。分析完成后,将生成相应的统计结果和图表。
交互作用怎么选
对数线性模型的构建一般以饱和模型开始,饱和模型包含了所有变量的主效应,低阶交互效应和高阶交互效应。在本案例中,饱和模型包括以下部分:
age2、sex、obstruct 个主效应项;
age2:sex、age2:obstruct、sex:obstruct 3个二阶交互效应项;
age2:sex:obstruct 1个高阶交互效应项。
对数线性模型为层次模型,如果模型中包含了某几个变量的高阶交互效应项时,这几个变量的低阶交互效应项与主效应项也一定包含在模型中。但由于饱和模型的理论频数完全拟合了实际频数,因此在实际应用过程中的意义不大,所以需要找到最简约的模型,对变量之间的关系进行解释。拟合优度检验过程中通过后退法(即最先对饱和模型中的最高阶交互效应项进行假设检验,然后依次向次高阶和低阶交互效应进行假设检验)逐渐排除没有统计学意义的项,最后得到最优简化模型。
确定最优简化模型后,通常用最大似然估计法对拟合的简化模型参数进行估计。最大似然估计利用多项分布的原理构造自然函数,再求对数似然函数。由对数线性模型的结构可以发现,该模型不仅可以解决两个因素是否相关的问题。还可以用来分析各因素主效应是否起作用。如在本案例中,如果要想知道”age2”是否对”obstruct”起作用,则需要看”age2*obstruct”交互项是否有统计学意义。
下载报告
点击下载word文件即可