
一、选择题
1.需要在聚类分析中保序的聚类分析是( )。
A.两步聚类 B.有序聚类 C.系统聚类 D.k-均值聚类
2.在系统聚类中是( )。
A.组内离差平方和除以组间离差平方和
B.组间离差平方和除以组内离差平方和
C.组间离差平方和除以总离差平方和
D.组间均方除以总均方。
3.系统聚类的单调性是指( )。
A.每步并类的距离是单调增的
B.每步并类的距离是单调减的
C.聚类的类数越来越少
D.系统聚类会越来越小
4.以下的系统聚类方法中,哪种系统聚类直接利用了组内的离差平方和。( )
A.最长距离法
B.组间平均连接法
C.组内平均连接法
D.WARD法
5.以下系统聚类方法中所用的相似性的度量,哪种最不稳健( )。
A. B. C. D.
6. 以下系统聚类方法中所用的相似性的度量,哪种考虑了变量间的相关性( )。A. B. C. D.
7.以下统计量,可以用来刻画分为几类的合理性统计量为( )?
A.可决系数或判定系数
B.
C.
D.
8.以下关于聚类分析的陈述,哪些是正确的( )
A.进行聚类分析的统计数据有关于类的变量
B.进行聚类分析的变量应该进行标准化处理
C.不同的类间距离会产生不同的递推公式
D.递推公式有利于运算速度的提高。D(3)的信息需要D(2)提供。
9.判别分析和聚类分析所要求统计数据的不同是( )
A.判别分析没有刻画类的变量,聚类分析有该变量
B.聚类分析没有刻画类的变量,判别分析有该变量
C.分析的变量在不同的样品上要有差异
D.要选择与研究目的有关的变量
10.距离判别法所用的距离是( )
A.马氏距离 B. 欧氏距离 C.绝对值距离 D. 欧氏平方距离
11.在一些条件同时满足的场合,距离判别和贝叶斯判别等价,是以下哪些条件。
( )
A.正态分布假定 B.等协方差矩阵假定
C.均值相等假定 D.先验概率相等假定
12.常用逐步判别分析选择不了的标准是( )
A.统计量越小变量的判别贡献更大
B.统计量越大变量的判别贡献更大
C.判定系数越小变量的判别贡献更大
D.判定系数越大变量的判别贡献更大
二、填空题
1、聚类分析是建立一种分类方法,它将一批样本或变量按照它们在性质上的_______________进行科学的分类。
2.Q型聚类法是按_________进行聚类,R型聚类法是按_______进行聚类。
3.Q型聚类相似程度指标常见是 、 、 ,而R型聚类相似程度指标通常采用_____________ 、 。
4.在聚类分析中需要对原始数据进行无量纲化处理,以消除不同量纲或数量级的影响,达到数据间可同度量的目的。常用的无量纲化方法有以下几种:_____________、____________、_____ ___。
5.六种Q型聚类方法分别为____ 、_______ ___、____ ____、
_____________、___________、_____________。
6.判别分析是要解决在研究对象已知_________________的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。
7.用判别分析方法处理问题时,通常以__________作为衡量新样本点与各已知组别接近程度的指标。
8.进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有____________、_____________。
9.类内样本点接近,类间样本点疏远的性质,可以通过_____________与___________的大小差异表现出来,而两者的比值能把不同的类区别开来。这个比值越大,说明类与类间的差异越_____,分类效果越______。
10. 最大的错判概率为 ,这时两个总体的均值向量的关系是 。
11. 两个点x和y是从同一个总体中抽出的样本,二者的马氏距离可以表达为 。
三、总结系统聚类有哪些方法?他们的D(0)可以如何定义,其各种方法的递推公式式什么。证明类平均法的递推公式是
四、系统聚类类别的确定有哪些方法或指标?
五、如果在系统聚类时,某步产生了如下的两个小类
如果用离差平方和法聚类,两个小类的距离是多少。
六、简述系统聚类法的基本思想及主要步骤。
六、简述快速聚类的基本思想及主要步骤。
七、某地区将农村经济类型分为三类:G1—较富裕类型,G2—中等类型,G3—较贫困类型。每种类型以五个指标为依据:x1=土地生产率=农村社会总产值/总土地面积(百元/每亩),x2=劳动生产率=农村社会总产值/农村劳动力(百元/每个劳动力),x3=人均收入=农村经济纯收入/农业人口(百元/每人),x4=费用水平=总费用/总收入, x5=农村工业比重=农村工业产值/农村社会总产值。每种类型分别有容量为n1=5,n2=8,n3=4的样本(每个个体以县为单位),其数据如下:
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | ||
| G1(较富裕) | X1 X2 X3 X4 X5 | 3.85 6.75 4.79 0.85 0.59 | 3.51 5.73 4.01 0.81 0.60 | 4.12 4.45 3.68 0. 0.48 | 5.01 4.68 3. 0.78 0.53 | 3.67 5.84 4.27 0.87 0. | |||
| G2(中等) | X1 X2 X3 X4 X5 | 3.61 4.05 2.65 0.90 0.45 | 3.65 3.74 2.86 0.91 0.43 | 4.11 4.13 3.15 0.93 0.41 | 2.98 3.69 2.90 0. 0.41 | 3.21 3.55 3.13 0.88 0.48 | 2.87 3.78 2.60 0.94 0.39 | 3.35 3.81 2.71 0.95 0.38 | 4.00 4.27 2.97 0.90 0.44 |
| G3(较贫困) | X1 X2 X3 X4 X5 | 3.23 4.08 1.85 0.96 0.38 | 3.03 3.21 2.03 0.94 0.25 | 2.54 3.50 1.51 0.97 0.34 | 2.11 2.98 1.07 0.99 0.21 | ||||
(2) 试以x1,x2,x3,x4,x5为变量,建立马氏距离判别函数
八、设两个二维总体有公共协方差,从二总体中分别抽取了容量为9和8的样本,其数据如下:
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | ||
| G1 | X1 X2 | 20.2 14.2 | 28.5 8.4 | 24.6 14.8 | 26.5 15.2 | 29.0 11.9 | 36.7 9.6 | 36.0 18.0 | 27.6 9.5 | 25.0 16.0 |
| G2 | X1 X2 | 21.6 7.5 | 23.2 4.5 | 17.8 9.2 | 14.4 7.2 | 11.0 5.5 | 18.9 6.3 | 15.4 8.0 | 16.1 7.8 | |
九、以下数据是20种啤酒的相关数据,进行聚类分析。
| 名称 | 热量 | 钠含量 | 酒精 | 价格 |
| Budweise | 144.00 | 19.00 | 4.70 | .43 |
| Schlitz | 181.00 | 19.00 | 4.90 | .43 |
| Ionenbra | 157.00 | 15.00 | 4.90 | .48 |
| Kronenso | 170.00 | 7.00 | 5.20 | .73 |
| Heineken | 152.00 | 11.00 | 5.00 | .77 |
| Old-miln | 145.00 | 23.00 | 4.60 | .26 |
| Aucsberg | 175.00 | 24.00 | 5.50 | .40 |
| Strchs-b | 149.00 | 27.00 | 4.70 | .42 |
| Miller-l | 99.00 | 10.00 | 4.30 | .43 |
| Sudeiser | 113.00 | 6.00 | 3.70 | .44 |
| Coors | 140.00 | 16.00 | 4.60 | .44 |
| Coorslic | 102.00 | 15.00 | 4.10 | .46 |
| Michelos | 135.00 | 11.00 | 4.20 | .50 |
| Secrs | 150.00 | 19.00 | 4.70 | .76 |
| Kkirin | 149.00 | 6.00 | 5.00 | .79 |
| Pabst-ex | 68.00 | 15.00 | 2.30 | .36 |
| Hamms | 136.00 | 19.00 | 4.40 | .43 |
| Heileman | 144.00 | 24.00 | 4.90 | .43 |
| Olympia- | 72.00 | 6.00 | 2.90 | .46 |
| Schlite- | 97.00 | 7.00 | 4.20 | .47 |
