主成分分析(Principal component analysis)
主成分分析(PCA)是一种统计学方法,用于降低高维数据的维数,同时保留数据的主要变异信息。通过将原始数据集的多个相关变量转换为一组不相关的新变量(即主成分),可以更有效地识别和解释数据中的模式。主成分分析广泛应用于多领域,如医学研究、市场分析和财务分析等。
在医学研究中,例如,我们可以用主成分分析来研究一组患者的多个生物标志物数据,以发现这些生物标志物之间的潜在关联,为疾病分类和风险评估提供依据。
MSTATA统计软件的主成分分析模块提供了全面的PCA功能,包括:
适用条件判断:
进行Bartlett’s球形检验,检查数据集是否适合进行主成分分析。
进行KMO抽样适合性检验,评估观测值的数量是否足够。
主成分分析方法:
- 提供旋转(rotation)选项,以便更清晰地解释主成分。
最终提取多少个主成分的方法依据:
基于平行性分析(parallel analysis)选择。
基于特征值(Eigenvalue)选择。
自定义主成分个数。
成分载荷(Loadings):
隐藏低于设定值的成分载荷。
按载荷大小排序。
输出其他统计表:
主成分摘要。
主成分相关性。
初始特征值。
输出统计图:
输出统计图。
绘制碎石图,直观展示主成分的数量选择。
绘制变量贡献图,显示各变量对主成分的贡献。
绘制个体分布图,展示观测值在主成分空间的分布。
绘制双标图,同时展示观测值和变量在主成分空间的分布。
MSTATA的主成分分析模块为您提供了一个强大、全面且易于使用的PCA工具,帮助您从复杂的高维数据中提取有意义的信息。
准备数据
首先务必按照下面的格式准备数据(网站上可下载,下载后在此基础上修改):
打开如下图:
本样例数据的规则:
一个患者一行(这是准备数据最重要的前提)。
分类变量,如diagnosis,不能用来做主成分分析
有相关性的连续性变量,直径,位置,密度等,用来做主成分分析
以上概念很重要,后面有一个页面专门设置连续变量和分类变量。
主成分分析
下一步就是主成分分析啦:
在”选择用来做主成分降维的变量”下拉框中,选择连续性变量(至少选择两个以上的变量才能继续往下走)。
在”适用条件判断”部分,勾选”做Bartlett’s球形检验”和”做KMO抽样适合性检验”,以确定数据集是否适合进行主成分分析。
Bartlett’s球形检验:Bartlett’s球形检验用于检验数据集的协方差矩阵是否为单位矩阵。如果协方差矩阵为单位矩阵,则各变量之间无相关性,不适合进行主成分分析。当检验的P值较小(通常小于0.05)时,我们拒绝原假设(协方差矩阵为单位矩阵),认为数据集适合进行主成分分析。
KMO抽样适合性检验(Kaiser-Meyer-Olkin):KMO检验用于评估数据集的抽样适合性,即各变量之间的相关性是否足够强烈,以便对数据集进行主成分分析。KMO值范围为0到1,值越接近1,表示变量间的相关性越强,主成分分析的结果越可靠。通常,KMO值大于0.6时认为数据集适合进行主成分分析。以下是对KMO值的一般解释:
KMO值大于0.9:非常适合进行主成分分析。
KMO值在0.8至0.9之间:适合进行主成分分析。
KMO值在0.7至0.8之间:较为适合进行主成分分析。
KMO值在0.6至0.7之间:适合性一般,可以进行主成分分析,但需谨慎解释。
KMO值小于0.6:不适合进行主成分分析。
在”主成分分析方法”部分,从下拉框中选择进行旋转(rotation)的方法,如无需旋转、最大方差法、四次方极大法、最优法、斜交法或最简法。
无需旋转(none):在这种情况下,主成分分析不会对主成分进行旋转。这意味着原始主成分将保持不变。无需旋转的主成分分析可以直接反映数据的基本结构,但可能较难解释。
最大方差法(varimax):这是一种正交旋转方法,旨在使主成分的平方载荷在主成分之间的方差最大化。这使得每个主成分都尽可能解释较少的原始变量,从而使结果更易于解释。
四次方极大法(quartimax):这是另一种正交旋转方法,旨在使主成分的四次方载荷在主成分之间的方差最大化。这通常会导致每个主成分解释更多原始变量,但解释性可能较差。
最优法(promax):这是一种斜交旋转方法,先进行正交旋转(通常是 varimax 旋转),然后应用某种幂变换。最优法允许主成分之间存在相关性,并试图使旋转后的载荷矩阵更加稀疏,从而更容易解释。
斜交法(oblimin):这是一种斜交旋转方法,允许主成分之间存在相关性。斜交法试图使每个主成分与尽可能少的原始变量高度相关,从而使结果更易于解释。
最简法(simplimax):这是一种正交旋转方法,类似于 varimax 和 quartimax,旨在使主成分载荷矩阵更加简单。最简法试图使每个主成分只与少量原始变量高度相关,这有助于提高结果的解释性。
在进行主成分分析时,可以根据数据集的特点和需求选择合适的旋转方法。正交旋转方法(如最大方差法和四次方极大法)通常更容易计算和理解,但斜交旋转方法(如最优法和斜交法)可能在某些情况下提供更好的解释性。
在”最终提取多少个主成分的方法依据”部分,选择基于平行性分析(parallel analysis)、基于特征值(Eigenvalue)或自定义主成分个数。
a. 若选择基于特征值(Eigenvalue)选择,设置特征值大于多少时的主成分。
- 若选择自定义主成分个数,设置要提取的主成分个数。
平行性分析(Parallel Analysis):平行性分析是一种基于随机数据模拟的方法,用于确定保留的主成分个数。通过比较实际数据的特征值与随机数据的特征值,确定应保留的主成分数量。具体而言,如果实际数据的特征值大于相应的随机数据特征值,则认为该主成分是重要的,应该保留。平行性分析被认为是在主成分分析中选择保留主成分数量的较为稳健和准确的方法。
特征值(Eigenvalue):特征值是主成分分析中用于衡量主成分解释方差的重要性的指标。在基于特征值的方法中,通常使用”特征值大于1”的准则来确定保留的主成分个数。这意味着,只有那些解释的方差大于原始变量平均方差的主成分才会被保留。然而,这种方法有时会保留过多或过少的主成分,因此它可能不是最稳健的选择方法。
自定义主成分个数:在某些情况下,研究者可能希望根据特定的理论或实践需求来指定保留的主成分个数。这种方法允许研究者根据他们对数据集和研究问题的理解来选择适当的主成分数量。然而,这种方法可能受到主观因素的影响,并且在缺乏理论支持的情况下,可能导致不准确的结果。
在进行主成分分析时,可以根据数据集的特点和需求选择合适的主成分数量选择方法。平行性分析通常被认为是一种较为稳健和准确的方法,而特征值方法和自定义主成分数量方法可能在特定情况下更适用。
在”成分载荷(Loadings)“部分,设置隐藏低于此值的成分载荷,并勾选按载荷大小排序。
成分载荷表示每个原始变量与主成分之间的关系。隐藏低载荷值有助于更容易地识别与主成分密切相关的变量。按载荷大小排序可以帮助用户更直观地了解每个主成分中最重要的变量。
在”输出其他统计表”部分,勾选”主成分摘要”、“主成分相关性”和”初始特征值”。这些选项将在结果中生成额外的统计表,提供更多关于主成分分析的详细信息。
主成分摘要提供了每个主成分的方差解释百分比和累积方差解释百分比等信息。主成分相关性表显示了各个主成分之间的相关性,有助于理解它们之间的关系。初始特征值表显示了每个主成分的特征值,以及与其相关的方差解释百分比和累积方差解释百分比。
在”输出统计图”部分,勾选”绘制碎石图”、“绘制变量贡献图”、“绘制个体分布图”和”绘制双标图”。这些图形可以帮助用户直观地了解主成分分析的结果。
碎石图展示了每个主成分的特征值,有助于确定保留的主成分数量。变量贡献图显示了每个变量对各个主成分的贡献程度。个体分布图描绘了观测值在主成分空间中的位置,以便了解它们在主成分上的分布。双标图综合展示了观测值和变量在主成分空间中的关系,有助于解释主成分在实际问题中的意义。
设置统计图的宽度(像素)和高度(像素)。
点击”开始进行主成分分析”按钮,开始分析。
通过以上步骤,您可以使用MSTATA进行主成分分析,根据您的需求定制化分析过程并输出相关统计表和图形。
下载报告
点击下载word文件即可