最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

主成分分析应用方法的改进

来源:动视网 责编:小OO 时间:2025-09-29 17:27:41
文档

主成分分析应用方法的改进

第36卷第6期2006年6月数学的实践与认识MATHEMATICSINPRACTICEANDTHEORYVol.36No.6June,2006主成分分析应用方法的改进徐雅静,汪远征(郑州轻工业学院信息与计算科学系,河南郑州450002)摘要:首先对主成分分析应用中出现的一些误区,通过推导指出错误所在,并提出相应的改进方案.最后通过一个实例,说明新方案的合理性.关键词:主成分分析;聚类分析;标准化;综合得分收稿日期:2005-09-05在实际统计工作中,经常遇到多指标(变量)系统的排序评估问题,
推荐度:
导读第36卷第6期2006年6月数学的实践与认识MATHEMATICSINPRACTICEANDTHEORYVol.36No.6June,2006主成分分析应用方法的改进徐雅静,汪远征(郑州轻工业学院信息与计算科学系,河南郑州450002)摘要:首先对主成分分析应用中出现的一些误区,通过推导指出错误所在,并提出相应的改进方案.最后通过一个实例,说明新方案的合理性.关键词:主成分分析;聚类分析;标准化;综合得分收稿日期:2005-09-05在实际统计工作中,经常遇到多指标(变量)系统的排序评估问题,
第36卷第6期2006年6月

数学的实践与认识

M AT HEM A TICS IN PRACTICE A ND T HEORY

V ol.36 N o.6 

June,2006 

主成分分析应用方法的改进

徐雅静, 汪远征

(郑州轻工业学院信息与计算科学系,河南郑州 450002)

摘要: 首先对主成分分析应用中出现的一些误区,通过推导指出错误所在,并提出相应的改进方案.最后

通过一个实例,说明新方案的合理性.

关键词: 主成分分析;聚类分析;标准化;综合得分

收稿日期:2005-09-05

在实际统计工作中,经常遇到多指标(变量)系统的排序评估问题,例如对企业的经济效益进行评估、对某类地区的发展状况进行评估等.如何科学、客观地将一个多指标问题综合为少数乃至单个指标的形式,主成分分析法是目前较为流行的一种方法.

由于主成分分析方法能浓缩信息,简化指标的结构,使分析问题的过程简单、直观、有效,故广泛应用于各个领域.人们经常利用主成分分析方法综合评价企业或事业单位的经济效益、技术进步状况,并收到了良好的效果.但是由于对主成分分析的原理及主成分的定义理解得不深,在应用中出现了一些误区,本文就此给出说明,并提出相应的处理方法,供大家参考.

1 主成分分析的基本概念及应用

1.1 主成分分析的数学模型

设有n 个样品,每个样品观测p 项指标(变量):X 1,X 2,…,X p ,得到原始数据资料阵:

X =

x 11

x 12…x 1p x 21x 22…x 2p w x n 1

x n 2

x np

=(X 1 X 2 … X p )

其中

X i =

x 1i

x 2i x ni

, i =1,2,…,p

  用数据矩阵X 的p 个向量(即p 个指标向量)X 1,X 2,…,X p 作线性组合(即综合指标向量)为:

F 1=a 11X 1+a 21X 2+…+a p 1X p F 2=a 12X 1+a 22X 2+…+a p 2X p  ……

F p =a 1p X 1+a 2p X 2+…+a p p X p

简写成:

F i =a 1i X 1+a 2i X 2+…+a pi X p , i =1,2,…,p

  为了加以,对组合系数a ′

i =(a 1i ,a 2i ,…,a p i )作如下要求:

a 21i +a 22i +…+a 2

pi =1, i =1,…,p

即:a i 为单位向量:a ′i a i =1,且由下列原则决定:

1)F i 与F j (i ≠j ,i ,j =1,…,p )不相关,即Cov(F i ,F j )=0.

2)F 1是X 1,X 2,…,X p 的一切线性组合(系数满足上述要求)中方差最大的,即

Var(F 1)=max c ′c =1

Var ∑p

i =1

c i

X

i

其中,c ′=(c 1,c 2,…,c p ).

F 2是与F 1不相关的X 1,X 2,…,X p 一切线性组合中方差最大的、…、F p 是与F 1,F 2,…,F p -1都不相关的X 1,X 2,…,X p 的一切线性组合中方差最大的.

满足上述要求的综合指标向量F 1,F 2,…,F p 就是主成分,这p 个主成分从原始指标所提供的信息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,且主成分方差的贡献就等于原指标相关矩阵相应的特征值K i ,每一个主成分的组合系数a ′

i

=(a 1i ,a 2i ,…,a pi )就是相应特征值K i 所对应的特征向量t i .方差的贡献率A i =K i /∑p

j=1

K j ,A i 越大,说明相应的主成分反映综合信息的能力越强.1.2 主成分的计算

1)计算样本数据的协方差矩阵:S=(s ij )p ×p ,其中

s ij =1n -1∑n

k =1

(x ki -x -i )(x kj -x -j ), i ,j =1,2,…,p   2)求出协方差矩阵S 的特征值K

1E K 2E …K p >0及相应的正交化单位特征向量:a 1=

a 11a 21 a p 1

,a 2=

a 12a 22 a p 2

,…,a p =

a 1p

a 2p a p p

则X 的第i 个主成分为F i =a ′

i X ,i =1,2,…,p .

3)在已确定的全部p 个主成分中合理选择r 个来实现最终的评价分析.一般用方差贡

献率A i =K i /∑p

j =1

K

j 解释主成分F i 所反映的信息量的大小,r 的确定以累计贡献率G (r )=∑r

j =1

K j

/∑p

j =1

K j

达到足够大(一般在85%以上)为原则.

4)计算n 个样品在r 个主成分上的得分:

F i =a 1i X 1+a 2i X 2+…+a pi X p , i =1,2,…,r

69

6期徐雅静,等:主成分分析应用方法的改进

2 原始数据的标准化与均值化

计算主成分的关键是计算原始数据协方差矩阵的特征值与特征向量,由于协方差矩阵易受指标量纲的影响,通常需要对数据进行消除量纲影响的处理.2.1 标准化的不足

在实际应用中,为了消除变量量纲的影响,往往对原始数据标准化:

x *

ij =x ij -x -j s j

, i =1,2,…,n ;j =1,2,…,p

其中x -j =1n ∑n

k =1x kj ,s 2

j =1n -1∑n

k =1

(x kj -x -j )2,j =1,2,…,p .但是标准化在消除量纲或数量级影响的同时,也抹杀了各指标变异程度的差异信息.事实上,原始指标包含两方面的信息:一是各指标变异程度的差异信息,二是各指标之间相互影响程度上的信息.

各指标变异程度的差异信息由各指标的变异系数(各指标方差与其均值之比)来反映;各指标之间相互影响程度上的信息则由各指标间的相关系数来反映.

协方差矩阵能完整刻划原始数据的全部信息:协方差矩阵的主对角元恰为各指标的方差,而非主对角元则包含了各指标间的相关系数的信息.

标准化使各指标的方差全为1,从而抹平了各指标变异程度上的差异,而从标准化后的数据提取的主成分,即从相关系数矩阵来计算主成分,实际上只是包含了各指标间相互影响这一方面的信息,不能准确反映原始数据所包含的全部信息.

由于上述原因,标准化对数据信息的提取有时效果不够好,这时可以考虑如下对数据的均值化.

2.2 数据的均值化

为了消除变量量纲和数量级的影响,又能反映原始数据的变异信息,可以使用“均值化”方法.所谓均值化,即用各指标的均值去除相应的原始数据.

设原始数据:X =(x ij )n ×p ,令

y ij =x ij

x -j

, i =1,2,…,n ;j =1,2,…,p

其中x -j =1n ∑n k =1

x kj ,j =1,2,…,p ,得均值化数据阵Y =(y ij )n ×p .

设Y =(Y 1Y 2…Y p )的协方差阵为U =(u ij )p ×p ,由于Y 中每个向量的均值为1,所以有:u ij =1n -1∑n

k =1(y ki -y -i )(y kj -y -j )=1n -1∑n

k =1

(y ki -1)(y kj -1)=1n -1∑n k =1

x ki x -i -1x kj x -j -1=1

n -1∑n

k =1(x ki -x -i )(x kj -x -j )x -i õx -j =s ij

x -i õx -j

  其中s ij 为原始数据的协方差,i ,j =1,2,…,p .特别地u ii =s

ii

(x -i )2

=s ii

x -i

2

,即均值

化数据的协方差阵主对角元为各指标间变异系数的平方.

设均值化数据各指标的相关系数为r *ij ,则

70

数 学 的 实 践 与 认 识36卷

r *ij =

u ij u ii

u jj

=

s ij

x -i õx -j s ii

(x -i )

2s jj

(x -j )

2=

s ij s ii

s j j

=r ij

  其中r ij 为原始指标间的相关系数,即均值化不改变各指标间的相关系数,相关系数阵的全部信息都在相应的协方差阵中得到反映.

3 主成分综合得分与主成分聚类

当第一主成分F 1的方差贡献率较高(一般85%以上)时,可以认为该主成分所能反映的信息与原有p 个变量提供的信息差不多,此时可以按第一主成分的得分进行排序评估.3.1 主成分综合得分的误区

在很多情况下,第一主成分F 1的方差贡献率不够高,需要考虑多个主成分F 1、F 2、…、F r .为了对样品进行排序,流行的方法是以各个主成分F i 的方差贡献率A i 为权数,构造主成分的“综合得分”:

H =A 1F 1+A 2F 2+…+A r F r

然后利用样本的主成分综合得分进行排序.

这种通过计算主成分“综合得分”的方法看似合理,似乎可以提高信息含量(增加方差贡献率),其实这只是一种错觉,计算H 的方差可以得到完全相反的结论.

事实上,因为F i 与F j (i ≠j ,i ,j =1,…,p )不相关,所以:

Var(H )=

∑p

i =1

A 2

i

V ar (F i

)

=

∑p

i =1

A 2i K i

=∑

p

i =1

K 2i

∑p

j =1

K j

2

K i F K 1

p

i =1

K 2

i

∑p

j =1

K j

2

=K 1

∑p

i =1

K

2i

∑p

j =1

K

j

2

1)

  即:综合得分H 的方差小于第一主成分F 1的方差.

其实,这个结论也可由第一主成分的定义得到:综合得分H 可以表示为原始变量的线性组合,而第一主成分是所有原始变量线性组合(组合系数为单位向量)中方差最大者.3.2 主成分聚类

对于多指标系统评估中的排序问题,如果第一主成分F 1的方差贡献率不够高,即第一主成分表达的原始数据信息不够大,仅按第一主成分得分对样品排序评价,会有片面性.这时候可以将主成分分析与聚类分析这两种统计方法结合起来,采用“主成分—聚类分析法”.

众所周知,聚类分析是将样品或变量按照它们性质上的亲疏相似程度进行分类的一种方法,尽管聚类分析可以将多指标(变量)的数据进行很好的分类,但并不能得到各类优劣程度的评价结果.

主成分聚类即先做主成分分析,再取若干主成分对样品进行聚类分析,结合第一主成分得分排序对样品进行分类排名.由此得到一种新的综合评价方法,具体做法如下:

设按照累计贡献率选定前r 个主成分,并计算主成分得分:

71

6期徐雅静,等:主成分分析应用方法的改进

F k=a1k X1+a2k X2+…+a pk X p, k=1,2,…,r

  对所选定的新数据阵(F1,F2,…,F r)进行系统聚类分析;

然后计算各类中样品第一主成分得分的平均值确定类间的排序;

最后根据类中样品第一主成分得分,确定每类中样品的排序,得到综合评价.

4 应用实例

文[1]对15个副省级城市专利(见表1)的综合发展状况进行了评价,其中使用了“主成分综合得分”.下面使用“主成分聚类”方法重新进行评价.

表1 15个副省级城市专利综合实力指标

城市专利申请量x1发明专利申请量x2专利授权量x3发明专利授权量x4

广州5249.56213367.5102

长春1175337.5482.50

武汉1981.5621.51047.590.5

南京16042758 2.5

杭州1652.5341815.50.5

西安1378.52.5803.572

济南1303209.5705.5 1.5

沈阳3496520.518.5112.5

成都2201.54731108.5 2.5

大连1202346.5729.573.5

厦门1070.570.57630

哈尔滨1470.5291.5882.573.5

深圳52348532954 4.5

青岛1952.5214151533.5

宁波1371.5868461

将数据均值化:

表2 15个副省级城市专利综合实力指标的均值化

城市专利申请量x1发明专利申请量x2专利授权量x3发明专利授权量x4

广州 2.434494273 1.629351058 2.704529635 2.684210526

长春0.5449149010.8855168790.3875087010

武汉0.9135213 1.6306629350.841275365 2.3815747

南京0.744794324 1.1596991430.6087701450.0657474

杭州0.7663590410.47000170.6549499380.0131575

西安0.63925240.7595767010.5312416 1.4736842

济南0.6042758430.54967040.5666059860.039473684

沈阳 1.621295738 1.36566381 1.524736307 2.960526316

成都 1.020961833 1.2410355080.02661030.0657474

大连0.5574363490.9091306630.58588103 1.934210526

厦门0.49522560.1849746370.6127857790

哈尔滨0.6819552010.78242090.708759437 1.934210526

深圳 2.427306033 2.238061921 2.3724366870.118421053

青岛0.905486250.561483295 1.2167371630.8815747

宁波0.6360432220.2252820.6794453070.0263157

使用统计软件SAS 计算,得相关矩阵的特征值为:

Eigenvalues of th e Covariance M atrix

Eigenvalue

Differen ce Proportion Cumulative 1 1.5406140.1006110.65300.653020.754400030.637477610.29940.953430.116922410.11388569

0.040.99884

0.00303672

0.0012

1.0000

即前三个方差依次为: 1.54、07544、0.1169,方差贡献率依次为:0.6530、0.2994、0.04.第一个方差贡献率较小,但前两个方差的累计贡献率达0.9524.前三个特征值相应的特征向量为:

Eigen vectors

Prin1

Prin2Prin 3-COL1专利申请量x 1

0.3597840.510562-.142986-COL2发明专利申请量x 20.2808070.3493280.870880-COL 3专利授权量x 30.3917470.506157-.470105-

COL 4

发明专利授权量x 4

0.7988

-.600917

-.011194

前三个主成分得分如表3所示.

表3 前三个主成分得分

城市Prin 1Prin 2Prin 3

广州 2.706084910.8029375625-0.477184025长春-1.234719120.01855877810.249819武汉 1.141205-0.7316337620.6199742013南京-0.9465759620.28884831420.3699462244杭州-1.0371873660.26228812350.1149602549西安0.3785652311-0.9853418-0.001078811济南-1.205972103-0.001521512-0.12110186沈阳 2.0980368272-0.467567578-0.039014808成都-0.7141004290.60074321930.26597949大连0.39939518-1.028*******.16836534厦门-1.360620686-0.136878271-0.444563408哈尔滨0.45177974-0.953331541-0.032878066深圳0.6945340656 2.385269820.2387980073青岛-0.166843229-0.020577354-0.46441宁波

-1.251840941

-0.033475261

-0.4607374

在SAS 中对上述前三个主成分得分数据矩阵作聚类分析,得聚类谱系图:

15个观测样品分为3类:{广州,深圳};

{武汉,沈阳,西安,哈尔滨,大连}.

{长春,济南,厦门,宁波,南京,杭州,成都,青岛};按各类中第一主成分的平均得分排序:{广州,深圳};

73

6期徐雅静,等:主成分分析应用方法的改进

图1 前三个主成分的聚类谱系图

{武汉,沈阳,西安,哈尔滨,大连}.

{长春,济南,厦门,宁波,南京,杭州,成都,青岛};再按各类中样品的第一主成分得分排序得:

广州,深圳,沈阳,武汉,哈尔滨,大连,西安,青岛,成都,南京,杭州,济南,长春,宁波,厦门表4给出各种方法排序的结果对比:

表4 各种方法的排序结果

城市主成分聚类排名

第一主成分排名

主成分综合得分排名

广州111长春131312武汉434南京101010杭州111111西安778济南121213沈阳323成都997大连666厦门151515哈尔滨555深圳242青岛8宁波

14

14

14

从原始数据可以看出,济南在三个指标方面都要强于长春,只有第2项指标“发明专利申请量x 2”上略低于长春,但在传统主成分综合得分上却低于长春,这是不合理的,在主成分聚类排名中济南强于长春.西安与成都相比,虽然在三个指标上西安都略低于成都,但是

74

数 学 的 实 践 与 认 识36卷

在第四项指标“发明专利授权量x 4”却远高于成都,理当排在成都之前.同样理由,青岛也应排于成都之前.

由此可知,用“主成分聚类”方法所得的综合排名比用“主成分综合得分”方法所得的排名更加合理.

参考文献:

[1] 刘凤朝,潘雄峰,王元地,朱纳米.15个副省级城市专利发展状况评价与分析[M ].北京:情报科学,2004,22(8).[2] 林秀梅.主成分分析方法在经济应用中的误区[M ].当代经济研究,1998,(2).

[3] 叶宗裕.主成分综合评价方法存在的问题及改进[M ].北京:统计与信息论坛,2004,19(2).[4] 阎慈琳.关于用主成分分析做综合评价的若干问题[M ].北京:数理统计与管理,1998,17(2).[5] 李靖华,郭耀煌.主成分分析用于多指标评价的方法研究—主成分评价[M ].管理工程学报,2002,(1).[6] 何晓群.多元统计分析[M ].北京:中国人民大学出版社,2004年4月.

[7] 王学民.应用多元统计分析(第二版)[M ].上海:上海财经大学出版社,2004年1月.[8] 高惠璇.应用多元统计分析[M ].北京:北京大学出版社,2005年1月.

[9] 林小苹,黄长江,林福荣,陈旭明.海水富营养化评价的主成分-聚类分析方法[M ].北京:数学的实践与认识,2004

年12月.

The Improvement of the Application Method of

Principle Component Analysis

XU Ya -jing , WANG Yuan -zheng

(Dept.o f Infor.and Comput atio n Sci.Zhengzhou Inst.of

L ig ht Ind.,Z heng zho u K enan 450002,China)

Abstract : A g ainst to the frequent mistakes emer ged fr om the applica tio n of the P rinciple Component A nalysis ,this article ha s deduced t he err or s ,and sug gested t he refo r mativ e schemes cor r espo ndingly .T he rat ionality of new schemes is affir med by an ex ample in the end .Keywords : the P rinciple Co mpo nent A nalysis ;the cluster A na ly sis ;st andar dizat ion ;G ener al Scor e

75

6期徐雅静,等:主成分分析应用方法的改进

文档

主成分分析应用方法的改进

第36卷第6期2006年6月数学的实践与认识MATHEMATICSINPRACTICEANDTHEORYVol.36No.6June,2006主成分分析应用方法的改进徐雅静,汪远征(郑州轻工业学院信息与计算科学系,河南郑州450002)摘要:首先对主成分分析应用中出现的一些误区,通过推导指出错误所在,并提出相应的改进方案.最后通过一个实例,说明新方案的合理性.关键词:主成分分析;聚类分析;标准化;综合得分收稿日期:2005-09-05在实际统计工作中,经常遇到多指标(变量)系统的排序评估问题,
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top