最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

主成分分析与因子分析聚类分析

来源:动视网 责编:小OO 时间:2025-10-01 09:40:52
文档

主成分分析与因子分析聚类分析

分类号密级UDC编号10486武汉大学硕士学位论文主成分分析、因子分析和聚类分析的比较与应用研究生姓名:杨武学号:200722010063指导教师姓名、职称:冯慧教授学科、专业名称:计算数学研究方向:数值分析及其应用二零零九年五月日Thecomparisonandapplicationofprincipalcomponentanalysis,factoranalysisandclusteranalysisYangwu郑重声明本人的学位论文是在导师指导下撰写并完成的,学位论文没有剽窃、抄袭、
推荐度:
导读分类号密级UDC编号10486武汉大学硕士学位论文主成分分析、因子分析和聚类分析的比较与应用研究生姓名:杨武学号:200722010063指导教师姓名、职称:冯慧教授学科、专业名称:计算数学研究方向:数值分析及其应用二零零九年五月日Thecomparisonandapplicationofprincipalcomponentanalysis,factoranalysisandclusteranalysisYangwu郑重声明本人的学位论文是在导师指导下撰写并完成的,学位论文没有剽窃、抄袭、
分类号 密 级 U D C 编 号1 0 4 8 6

武汉大学

硕士学位论文

主成分分析、因子分析和聚类

分析的比较与应用

研 究 生 姓 名:杨 武

学 号:200722010063

指导教师姓名、职称:冯 慧 教 授

学 科 、专 业 名称:计 算 数 学

研 究 方 向:数值分析及其应用

二零零九 年 五 月 日The comparison and application of principal component analysis, factor analysis and cluster analysis

Yang wu郑重声明

本人的学位论文是在导师指导下撰写并完成的,学位论文没有剽窃、抄袭、造假等违反学术道德、学术规范和侵权行为,否则,本人愿意承担由此而产生的法律责任和法律后果,特此郑重声明。

学位论文作者(签名):

年月日摘 要

主成分分析就是将多项指标转化为少数几项不相关的综合指标,在尽量保留原始信息的基础上用综合指标来解释多变量的方差-协方差结构;因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的解释性的一种多元统计方法;聚类分析是依据数据本身所具有的定性或定量的特征来对数据分组归类以了解数据集的内在结构,并且对每个数据集进行描述的过程。它们在数据分析中有着广泛的应用。

本文主要作了如下的工作:

(1)介绍了主成分分析、因子分析和聚类分析的基本理论及应用过程、步骤;(2)应用以上三种方法作一具体的实例分析,通过分析结果的对比,指出主成分分析中的综合评价函数使用的局限性;

(3)在实例分析的过程当中及结束语中,对主成分分析、因子分析及聚类分析的区别和联系给出了笔者的见解。

关键词:主成分分析因子分析聚类分析综合评价函数得分ABSTRACT

Principal component analysis translated Multi-indicators into some un related composite indicators, and use these composite indicators to explain the multi-variable variance - covariance structure In the basis of retaining the original information as much as possible. Factor analysis is a multivariate statistical method which study on how to condense large number of original variables into a few enrichment factor variables at the least loss of information, and make the factor can be explained easily. Cluster analysis clustering the data based on the qualitative or quantitative characteristics of the data itself to describe and understand the internal structure of data sets. they are widely used in data analysis.

The main Content of this paper are as follows:

(1)Introduced the basic theory and application process of principal component analysis, factor analysis and cluster analysis;

(2) Analysis are made on a specific example with the three methods,

and pointed out the limitations of the comprehensive evaluation function in the principal component analysis By the contrast of the result produced above.

(3)In the process of analysis about the example and the last chapter, the difference and affiliation of principal component analysis, factor analysis and cluster analysis are given by the author.

Key words: principal component analysis, factor analysis, cluster analysis, comprehensive evaluation function, scores.

目 录

摘要 .........................................................................................................Ⅰ ABSTRACT ..............................................................................................Ⅱ 1 绪论 (1)

1.1 研究背景及意义.......................................................................................1 1.2 主成分分析、因子分析和聚类分析简介 ...................................................1 1.3 本文的主要工作 (4)

2 主成分分析 (5)

2.1 主成分分析的数学模型及几何解释 ..........................................................5 2.2 总体主成分..............................................................................................6 2.3 样本主成分及其得分. (10)

3 因子分析 (12)

3.1 因子分析的数学模型及其性质 ...............................................................12 3.2 因子载荷矩阵pm ij a A )(=的统计意义.. (13)

3.3 因子载荷矩阵的求解 ...........................................................................14 3.4 因子旋转 ..............................................................................................18 3.5 因子得分 . (19)

4 聚类分析 (22)

4.1 样品间相近性的度量...............................................................................22 4.2 类的几个定义和类的特征 ......................................................................23 4.3 类间距离 ..............................................................................................24 4.4 类的各种统计量......................................................................................27 4.5 谱系聚类法(系统聚类法). (29)

5 实例分析 (30)

5.1 指标及原始数据的初步处理 ..................................................................30 5.2 主成分分析 ..........................................................................................35 5.3 因子分析 .............................................................................................39 5.4 聚类分 析 (49)

6 结束语 (61)

6.1 本文总结 ..............................................................................................61 6.2 建议与展望 ()

参考文献 .................................................................................................65 致谢.. (67)

第1章 绪论

1.1 研究背景及意义

主成分分析、因子分析和聚类分析是三种比较有价值的传统的多元统计方法,被广泛地应用于各行各业的数据分析当中。从管理决策、商业经营、科学研究到工业决策支持等各个领域都有它的用武之地。如基于客户数据库的市场营销,其中包括零售业的市场营销、信用卡业的市场营销、电信业的市场营销、保险业及其他企业的营销和客户关系管理等,通过应用这些方法将产品或顾客分类,从而以更好的服务留住客户、用更低的成本争取到新的客户并扩大市场份额,放弃信用差的客户,降低运营成本和风险;风险和欺诈检测,它可以协助进行风险评估、财务计划及资产评价、资源计划和竞争策略选择等;以及在体育、教育、军事、医药和生物、传媒、科学实验及在其它许多场合的应用等。正是因为应用范围之广,有关这三种方法的应用的论文也是非常之多,只是更换了一下数据即是。因此,正确使用主成分分析、因子分析和聚类分析就显得尤其重要。然而,目前的现状是,由于这些方法操作上的简单,以致不怎么了解该方法的理论与原理而仅仅依靠某些统计分析或数据挖掘软件就进行相关分析,这样的做法是不可取的。在某些文章当中,甚至将主成分分析和因子分析两者都用混了。还有,主成分分析中的一种流行的所谓的综合评价函数的方法,笔者认为此法缺乏足够的理论支持,至少笔者查阅了较多相关资料,没有找到理论上的证明,同时应用此法写作论文的作者们也没有给出相关分析。但是,这种综合评价函数却得到大量使用。有鉴于此,本文希望通过一个实例分析,对该方法的应用过程及其原理作一阐述,并在某些问题上提出自己的一些理解,笔者认为这项工作有一定的实际意义。

1.2 主成分分析、因子分析和聚类分析简介

这里先对这三种方法作一概括性的介绍,然后再在接下来的三章就基于统计方法的这三类分析法分别作较详细地介绍。

1.2.1主成分分析一瞥

主成分概念首先由Karl parson在1901年引进,不过当时只对非随机变量来

讨论的。1933年Hotelling 将这个概念推广到随机向量。

在实际问题中,研究多指标(变量)问题是经常遇到的,且不同指标之间有一定相关性。由于指标较多再加上指标之间有一定的相关性,势必增加了分析问题的复杂性。主成分分析就是设法将原来指标重新组合成一组新的不相关的几个综合指标来代替原来指标,同时根据实际需要从中取几个较少的综合指标来尽可能多地反映原来指标的信息。这种将多个指标化为少数互不相关的综合指标的统计方法叫做主成分分析或称主分量分析。它也是数学上处理降维的一种方法。

主成分分析就是设法将原来众多具有一定相关性的指标(比如p 个指标),重新组合成一组新的相互无关的综合指标来代替原来指标,其最简单的形式就是取原来变量指标的线性组合。如果将选取的第一个线性组合即第一个综合指标记为1F ,则希望1F 尽可能多的反映原来指标的信息,这里的“信息”用方差来表达,即)(1F Var 越大, 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的,1F 称为第一主成分。如果1F 不足以代表原来p 个指标的信息,再考虑选取2F 即选第二个线性组合,为有效地反映原来信息, 已有的信息就不需要再出现在2F 中,即(1F ,2F )=0,且2F 的方差尽量大,称2F 为第二主成分。依此类推可以构造第三,四,…,第p 主成分。这些主成分之间不仅不相关,而且它们的方差依次递减。因此在实际应用中,就挑选前几个主成分,虽然这样做会损失一部分信息,但是由于它使我们抓住了主要矛盾,并从原始数据中进一步提取了某些新的信息。

1.2.2 因子分析一瞥

因子分析在其全部历史上时时机激起相当激烈的争论,它的现代起源在20世纪早期,K.皮尔逊(Pearson ),C.斯皮尔曼(Spearman )及其他一些学者,为定义和测定智力所作的努力。因为与智力这类概念早有联系,主要由对心理测量学有兴趣的科学家们,培育和发展了因子分析。对几个早期的心理学解释的争论以及缺乏强有力的计算工具,阻碍了它作为统计学方法的发展。伴随着计算机技术的高速发展,已经重新引发对因子分析的理论和计算方面的兴趣。原先的大部分技巧已经被抛弃,而紧随新近的发展,早期的争论也消退了。

因子分析(Factor Analysis )是主成分分析的推广,它也是从研究相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子

1.2.3 聚类分析一瞥

聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法。所谓类,就是指相似元素的集合。聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类。随着生产技术和科学的发展,人类的认识不断加深,分类越来越细,要求也越来越高,有时光凭经验和专业知识是不能进行确切分类的,往往需要定性和定量分析结合起来去分类,于是数学工具逐渐被引进分类学中,形成了数值分类学。1963年,由Robert Sokal和Peter Sneath合著的《Principles of Numerical Taxonomy》一书对聚类的研究起了很大的推动和促进作用。后来随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来而形成一个相对的分支。

传统的聚类方法主要基于统计学和模式识别。聚类分析作为统计学得一个分支,主要研究方法是基于距离的聚类,以统计分析为基础的AutoClass就是这类方法的代表。在模式识别中,聚类分析常被称为非监督的学习或者概念聚类,它不仅考虑对象间的距离,还要求同类的对象具有某种共同的内涵。从这个意义上看,聚类分析就是将一组数据分组,使其具有最大的组内相似性和最小的组间相似性。

聚类分析是多元统计分析中研究“物以类聚”的一种方法,用于对事物的类别面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。聚类分析把分类对象按一定规则分成组或类,这些组或类不是事先给定的而是根据数据特征而定的。

聚类分析一般有两种类型,即按样品聚类和按变量聚类,其基本思想是通过定义样品或变量间“接近程度”的度量,以此为基础,将“相近”的样品或变量归为一类。在一个给定的类里的这些对象在某种意义上倾向于彼此相似,而在不同类里的这些对象倾向于不相似。

迄今为止,人们已经提出了许多聚类的算法,如一些传统的聚类方法,空间数据的聚类方法和统计学中的聚类算法等,而且还不断地有新的算法被提出来,如神经网络、遗传算法、模糊聚类等等。近年来,聚类作为一种基本的数据分析、挖掘方法被广泛地应用于相似搜索、顾客划分、趋势分析、金融投资,地理信息系统、遥感图像和信息检索等领域中,对促进经济和科学研究事业的发展起着重要的作用。

1.3 本文的主要工作

正如1.1节所说,在目前还存在着主成分分析和因子分析法混淆的情况。某些统计分析件如SPSS,没有的主成分分析模块,而是将它放在因子分析模块中,调用两种分析都是使用FACTOR过程。在这个过程中,若全部采用默认状态或仅仅改变提取公因子个数一项,进行的将是主成分分析。而且,在根据具体数据求解因子模型的相关参数时,主成分法可以作为因子分析的一种方法出现,利用主成分法求得的因子载荷矩阵也就很容易认为是主成分分析模型的系数矩阵,事实上主成分分析的系数矩阵和因子分析的因子载荷矩阵的确很相似。两者还有许多步骤也是相同的,如指标的正向化、标准化,计算相关系数矩阵及其特征值、特征向量,用累计贡献率确定主成分个数及因子个数,单个主成分与综合主成分的分析评价、单因子与综合因子的分析评价步骤等。而聚类分析之所以在这里并提,是因为聚类分析是通过一个大的对称矩阵来探索相关关系,并据此分类,使类间的相关性尽量小,类内的相关性尽量大,对变量的聚类,和因子分析有着较大的相似性。主成分得分和因子得分也可以作为聚类分析的数据来源。

为此,本文主要作了如下的工作:

(1)介绍了主成分分析、因子分析和聚类分析的基本理论及应用过程、步骤;(2)应用以上三种方法作一具体的实例分析,通过分析结果的对比,指出主成分分析中的综合评价函数的使用局限性;

(3)在实例分析的过程当中及结束语中,对主成分分析、因子分析及聚类分析的区别和联系给出了笔者的见解。

第2章 主成分分析

2.1主成分分析的数学模型及几何解释

设有n 个样品,每个样品有p 项指标(变量),我们把这p 个指标看作p 个随机变量,记为1X ,2X ,…,P X ,并记X =T p X X X ),,,,(21L ,则X 为随机向量。设第i 个样品的第j 个指标的观测值为ij x ,则原始数据资料阵为

⎟⎟⎟⎟⎟⎠

⎞⎜⎜⎜⎜⎜⎝⎛np n n p p x x x x x x x x x L M M M M L K 212222111211 (2.1) 每个观测到的样本可记为T ip i i i x x x x ),,,(21L =,n i L ,2,1=。

主成分分析就是要把这p 个指标的问题,转变为讨论p 个指标的线性组合的问题,而这些新的指标1F ,2F ,…,k F (p k ≤),按照保留主要信息量的原则充分反映原指标的信息,并且互不相关。即:

⎪⎪⎩⎪⎪⎨⎧+++==+++==+++==p pp p p T

p p p p T p p T X a X a X a X a F X a X a X a X a F X a X a X a X a F L L L L 2211222212122121211111 (2.2)

0),(=j i F F Cov ,),,2,1,(j i p j i ≠=L

)()()(21p F Var F Var F Var ≥≥≥L

为了方便,讨论=p 2时主成分的几何意义。 设有n 个样品,每个样品有两个指标1X 和2X ,在由变量1X 和2X 所确定的二维平面中, n 个样本点所散布的情况如椭圆状(若),(~∑µN X ,即二元正态分布)。

(图2.1) 由图可知这n 个样本点无论是沿着1X 轴方向或2X 轴方向都具有较大的离散性,其离散的程度可以分别用观测变量1X 的方差和2X 的方差定量地表示。如果只考虑1X 或2X 中的任何一个,那么包含在原始数据中的信息将会有较大的损失。由于在椭圆的长轴方向数据具有最大的分散性,即该方向上所反映的数据间的差异的信息最多,若取椭圆长轴方向为1F 方向,椭圆短轴方向为2F 方向,则这相当于在平面上作一个坐标变换,即按逆时针方向旋转某一角度,记为θ,根据旋轴变换公式新老坐标之间有关系,有

⎩⎨⎧+−=+=θθθθcos sin sin cos 212211X X F X X F ,即 ⎟⎟⎠⎞⎜⎜⎝⎛21F F =⎟⎟⎠⎞⎜⎜⎝⎛−θθθθcos sin sin cos ⎟⎟⎠

⎞⎜⎜⎝⎛21X X =PX (2.3) P =⎟⎟⎠

⎞⎜⎜⎝⎛−θθθθcos sin sin cos 为正交矩阵。 如果上图的椭圆是相当扁平的,那么我们可以只考虑1F 方向上的波动,

忽略2F 方向的波动。一般地,p 个变量组成p 维空间,n 个样本就是p 维空间的n 个点,对p 元正态分布变量,找主成分的问题就是找p 维空间中椭球体的主轴问题。

2.2 总体主成分

2.2.1.总体主成分的定义

设T P X X X X ),,(21L =为p 维随机向量,其协方差矩阵为:

)(X Cov =∑=pp ij )(σ=)])())(([(T X E X X E X E −− (2.4)

它是一个p 阶非负定矩阵,按照主成分分析的思想,首先构造

p X X X ,,,21L 的线性组合

X a F T

1

1==P p X a X a X a 1212111+++L (2.5) 确定1a =T p a a a ),(11211L ,使得)(1F Var =)(1X a Var T =11a a T

Σ达到最大。由于求主成

分实际上是对原坐标轴作正交旋转,可设1a 为单位向量。由此1a 确定的随机变量式2.5称为X 的第一主成分。

如果第一主成分1F 在1a 上的分散性还不足以反映原变量的分散性(或称为信息),则再构造1X ,2X ,…,p X 的线性组合

X a F T

22==P p X a X a X a 2222121+++L (2.6)

为使1F 、2F 反映的原变量的信息不重叠,要求1F 、2F 不相关,即

),(12F F Cov =),(12X a X a Cov T T =12a a T

Σ=0

由此单位向量2a 确定的随机变量式2.6称为X 的第二主成分。

一般地,若1F ,2F …1−k F 还不足以反映原变量的信息,则继续构造1X ,2X ,…,p X 的线性组合

X a F T

k k ==P kp k k X a X a X a +++L 2211 (2.7) 在约束条件k T k a a =1及i T k a a Σ=0(1,,2,1−=k i L )下,求k a 使)(k F Var =k T k a a Σ达

到最大。由此k a 确定的随机变量式2.7称为X 的第k 主成分。 按上述方法,我们可以构造出p 个方差大于零的主成分。

2.2.2 总体主成分的求法

关于总体主成分有如下结论:设T P X X X X ),,(21L =的协方差矩阵∑的特征值为021≥≥≥≥p λλλL ,相应的正交单位化特征向量为p e e e L ,,21,则X 的第k 个主成分可表示为

X e F T

k k ==P kp k k X e X e X e +++L 2211(p k L ,2,1=) (2.8)

其中T kp k k k e e e e ),,(21L = ,且有

⎪⎩

⎪⎨⎧≠==∑====∑=k j e e e e F F Cov p k e e e e F Var k T

j k k T j k j k k T

k k k T k k ,0),(,2,1,)(λλλL (2.9) 证明:令P =),,(21p e e e L ,则P 为正交矩阵,且P P T ∑=Λ=),,(21p Diang λλλL

若X a F T 11==P p X a X a X a 1212111+++L 为X 的第一主成分,其中11a a T

=1,令 11a P z T ==T p z z z ),,,(11211L ,则11z z T =11a PP a T T =11a a T =1,且

)(1F Var =)(1X a Var T =11a a T Σ=11Pz P z T

T ∑

=212

1222111p p z z z λλλL ++≤111z z T λ=1λ

且当1z =T )0,0,1(L 时,等号成立,这时11Pz a ==1e 。所以在约束条件11a a T

=1之

下,当1a =1e 时)(1F Var 达到最大,且

)}{var(max 11

11F a a T ==)(1X e Var T =11e e T

Σ=1λ 设X a F T

22=为X 的第二主成分,则应有

22a a T =1且),(12F F Cov =),(12X e X a Cov T T =12e a T Σ=121e a T

λ=0

首先选择2a 与1e 正交,即12e a T

=0,令22a P z T ==T p z z z ),,,(22221L ,则22z z T =22a PP a T T =22a a T =1,而由12e a T =0即有

12e a T =12e P z T T =1121e e z T +2222e e z T

+…+p T p p e e z 2=21z =0

所以

)(2F Var =)(2X a Var T =22a a T Σ=22Pz P z T

T ∑

=22z z T Λ=2

222222211p p z z z λλλL ++ =222222p p z z λλL +≤222z z T λ=2λ

当2z =T )0,,0,1,0(L 时,即22Pz a ==2e 时,满足22a a T

=1,且),(12F F Cov =),(12X e X a Cov T T =12e a T Σ=121e a T

λ=0,并且使)(2F Var 达到最大。同理,

X 的各主成分都可按上述过程求得。

即求X 的主成分等价于求它的协方差矩阵∑的所有特征值和相应的单位正交化特征向量。按特征值由大到小所对应的单位正交化特征向量为组合系数的

p X X X ,,,21L 的线性组合分别为X 的第一、第二、直至第p 个主成分,而各主成分的方差等于相应的特征值。

2.2.3 总体主成分的性质

1.5.3.1主成分的协方差矩阵及总方差

记T p F F F F ),,,(21L =为p 个主成分构成的随机向量, ),,,(21p e e e P L =为

∑的p 个单位正交化特征向量构成的正交矩阵,则

X P F T =,)(F Cov =)(X P Cov T =P P T ∑=),,,(21p Diang λλλL

∑=p k k

F Var 1

)(=∑=p

k k

1

λ

=)(∑Tr =∑=p

k k X Var 1

)( (2.10)

主成分分析把p 个原始变量p X X X ,,,21L 的总方差∑=p

k k X Var 1

)(分解成p 个不相

关变量p F F F ,,,21L 的方差和,且使得)(k F Var =k λ,p k L ,2,1=

1.5.3.2主成分的贡献率与累计贡献率

i λ/∑=p

i i 1

λ=)(k F Var /∑=p

i i X Var 1

)( (2.11)

称为k F 的贡献率,它描述了k F 提取的p X X X ,,,21L 的总(分散性)信息的份额。由021≥≥≥≥p λλλL 知,p F F F ,,,21L 综合原始变量的能力依次递减。

∑=m i i

1

λ/∑=p i i

1

λ=∑=m i i

F Var 1

)(/∑=p

k p

X

Var 1

)( (2.12)

称为m F F F ,,,21L 的累计贡献率,它描述了p F F F ,,,21L 综合p X X X ,,,21L 的总(分散性)信息的能力。在应用中常取p m ≤,使m F F F ,,,21L 的累计贡献率达到一定的比例(如80%—90%)

,则用p F F F ,,,21L 代替p X X X ,,,21L 不但可以使原变量的维数降低,而且也不至于损失原始变量中太多的信息。

2.2.4 标准化变量的主成分

不同的变量往往有不同的量纲,从而引起各变量取值的分散程度差异较大,这时变量的总方差主要受方差较大的变量控制。为了消除原始变量彼此方差差异过大的影响,通常将原始变量进行标准化再做主成分分析。

对于X =T p X X X ),,,(21L ,设k µ=)(k X E ,kk σ=)(k X Var ,p k L ,2,1=,则其标准化变量为

k

X =kk

k

k X σµ−,p k L ,2,1= (2.13)

则0)(=∗k X E ,)(∗k X Var =1,p k L ,2,1=。令∗X =T

k k X X X ),,,(1∗∗∗L ,ρ为其协

方差矩阵,则

ρ=pp ij )(ρ=)(∗X Cov ,ij ρ =)(∗∗j i X X E =

jj

ii j i X X Cov ρρ)

,( (2.14)

即ρ为X 的相关系数矩阵。对标准化向量∗X 作主成分分析即求X 的相关系数矩阵ρ的特征值及相应的单位正交化特征向量。

2.3 样本主成分及其得分

在实际问题中,总体X =T p X X X ),,,(21L 的协方差矩阵∑(或相关系数矩阵R )一般是未知的,具有的资料只是来自于X 的一个容量为n 的样本观测数据 T ip i i i x x x x ),,,(21L =,n i L ,2,1=。这时我们用其样本协方差矩阵S 或其样本相关

系数矩阵R 分别作为∑或ρ的估计进行主成分分析,而由S 或R 求得的主成分称为样本主成分。其中

S =pp jk s )(=T

i n i i x x x x n ))((111

−−−∑=,R =pp ij r )(=pp kk

jj jk s s s )(

x =T

p x x x ),,,(21L ,j x =∑=n

i ij x n 1

1,p j L ,2,1= (2.15)

jk s =T k ik j n

i ij x x x x n ))((111

−−−∑=,p k j L ,2,1,=

文档

主成分分析与因子分析聚类分析

分类号密级UDC编号10486武汉大学硕士学位论文主成分分析、因子分析和聚类分析的比较与应用研究生姓名:杨武学号:200722010063指导教师姓名、职称:冯慧教授学科、专业名称:计算数学研究方向:数值分析及其应用二零零九年五月日Thecomparisonandapplicationofprincipalcomponentanalysis,factoranalysisandclusteranalysisYangwu郑重声明本人的学位论文是在导师指导下撰写并完成的,学位论文没有剽窃、抄袭、
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top