
第二章多元正态的参数估计
一.判断题
(1)若是对角矩阵,则相互。( )
(2)多元正态分布的任何边缘分布为正态分布,反之也成立。( )
(3)对任意的随机向量来说,其协方差矩阵是对称矩阵,并且总是半正定的。( )
(4)对标准化的随机向量来说,它的协方差矩阵与原来变量的相关系数阵相同。( )
(5)若分别为样本均值和样本协差阵,则分别为的无偏估计。( )
二.计算题
1. 假设随机向量的协方差矩阵为,试求相关系数矩阵。
2. 假设随机向量的协方差矩阵为,令,试求的协方差矩阵。
3.假设,其中,,试求的分布。
三.证明题
1.设是来自的随机样本,为样本均值。试证明: ,。
2.设是来自的随机样本,为样本协差阵。试证明: 。
3.证明:若维正态随机向量的协差阵为对角矩阵,则的各分量是相互的随机变量。
第四章判别分析
一.判断题
1.从某种意义上讲,距离判别是Bayes判别的一种特例。( )
2.距离判别的思想是分别计算样本到各个总体的欧几里得距离,根据距离的大小判别样本属于哪个总体。( )
3.量纲的变化对欧几里得距离的计算结果有影响,而马氏距离则克服了这种影响。欧氏距离是马氏距离的一种特例。( )
4.贝叶斯判别法是一种考虑了总体出现的先验概率和误判损失的判别方法。( )
5.在贝叶斯判别法中,是一个划分,是将样品误判给总体的加权平均损失,则。 ( )
6.费希尔判别法是借助方差分析的思想构造线性判别函数,使得总体之间区别最大,而使每个个体内部的离差最小。( )
二.计算题
1.设有两个正态总体,已知:
(1)建立距离判别法的判别准则;
(2)判断:样品:,应归属于哪一类?
(答案:)
2.设G1,G2为两个二元总体,从中分别抽取容量为3的样本如下:
| x1 x2 | x1 x2 |
| 3 7 2 4 : G1 4 7 | 6 9 5 7 :G2 4 8 |
(2)假定两总体协方差矩阵相等,记为,用联合估计;
(3)建立距离判别法则;
(4)假设有一新样品,进行距离判别。
3.已知两总体的概率密度分别为和,且总体的先验分布为,误判损失为。
(1)建立Bayes判别准则;
(2)假设有一新样品满足和,判定的归属问题。
4. 假设两总体G1,G2的概率密度分别为和
。
(1)做出和的图像。若假定先验概率,,求Bayes判别区间的临界点;(0.25)
(2)若,,求Bayes判别区间的临界点;(-0.33)
5.假定有三个组,已知,和,。
(1)若不计误判损失,判定属于哪个组;()(后验概率分别为0.004,0.361,0.635)
(2)假定误判代价矩阵为
| 误判为 | |||
| 真实组 |
6. 已知两总体的概率密度分别为和,且总体的先验分布为,误判损失为。
(1)建立Bayes判别准则;
(2)假设有一新样品满足和,判定的归属问题。()
7.假设先验概率,误判代价及概率密度值已列于下表。试用贝叶斯判别法将样品分到组中的一个。若不考虑误判代价,则判别结果又将如何?
| 判别为 | |||
| 真实组 | |||
| 先验概率 概率密度 |
(1)假设对某一金融分析员进行测量得到两个指标为,判别这一分析员是否能满足这项工作。(满足)
(2)当两组先验概率分别为,损失相同。问该金融分析员满足要求吗?为什么?(不满足)
第五章聚类分析
一.判断题
1.快速(动态)聚类分析中,分类的个数是确定的,不可改变。( )
2.K均值聚类分析中,样品一旦划入某一类就不可改变。( )
3.判别分析,聚类分析和主成分分析都不要求数据来自正态总体。( )
4.系统聚类可以对不同的类数产生一系列的聚类结果。( )
5. K均值聚类和系统聚类一样,可以用不同的方法定义点点间的距离。( )
6. K均值聚类和系统聚类一样,都是以距离的远近亲疏为标准进行聚类的。( )
二. 计算题
1. 下面是5个样品两两间的距离矩阵
试用最长距离法作系统聚类,并画出谱系聚类图。
2. 假设有6个样本,每个样本只测量一个指标,数据如表。样本点间使用绝对值距离,类间使用最长距离,利用系统聚类法对这6个样本进行分类。
要求:(1)写出距离矩阵及类的合并过程;
(2)画出聚类的谱系图;
(3)写出样本分成两类时的结果。
| 样本编号 | 1 | 2 | 3 | 4 | 5 | 6 |
| 指标1 | 1 | 2 | 4 | 3 | -4 | -2 |
用快速聚类法将以上样品聚成两类。
| 样品 | 变量 | |
| X1 | X2 | |
| A | 5 | 3 |
| B | -1 | 1 |
| C | 1 | 2 |
5. 考虑下列4个样品的距离矩阵:,用最短距离,最长距离法和类平均法对这4个样品进行聚类,并画出谱系图。
6. 有8个样本,每个样本两个指标,数据如表。样本点间使用欧氏距离,类间使用最短距离法,利用系统聚类法对这8个样本进行分类。
| 样本编号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
| 指标1 | 2 | 2 | 4 | 4 | -4 | -2 | -3 | -1 |
| 指标2 | 5 | 3 | 4 | 3 | 3 | 2 | 2 | -3 |
三.简答题
1.判别分析与聚类分析有何区别?
判别分析是对于n个给定的样本,已知每个样本属于k个类别中的某一类,利用这些数据,找到一种判别方法,使得这种判别方法具有某种最优性质,能把属于不同种类的样本点尽可能的区别开来,并对测得同样指标数据的新样本,能够判别这个样本归属于哪一类。
聚类分析是在样品和类之间定义一种距离,按照距离的大小对样品进行聚类,距离相近的样品先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品总能聚到合适的类中。
聚类分析没有判别函数,对新的样品无法判别它应该归属哪一类,必须重新进行聚类过程,才能判别它属于哪类。系统聚类分析能够得到样品从最小的分类(每个样品自成一类)到最大的分类的情况,而判别分析没有这种功能,但判别分析的距离判别法与聚类分析非常相似,也是根据距离的远近判别样本的归属问题。
2.K均值法与系统聚类法的异同
(1)K均值法事先必须确定分类的个数,分类的个数确定,而系统聚类分析系统聚类分析能够得到样品从最小的分类(每个样品自成一类)到最大的分类的情况,可以根据需要将样品分为几类。
(2)K均值法可以随意将样品分为K类,根据样品到类中心的距离远近重新进行分类,而系统聚类中样品一旦划入某一类就不能更改。
(3)K均值法样品与不同类间的距离采用点到类中心的平方欧氏距离,而系统聚类中点间距离有很多种定义方法。
3. 简述系统聚类法的思想。
4. 简述快速聚类法的思想。
第六章主成分分析
一.判断题
1.主成分分析数学模型中的正交变换,在几何上就是做一个坐标旋转。( )
2.假设为某实际问题所涉及的个变量,是其个主成分,判断下列说法是否正确:
(1)由原始变量的协方差矩阵和相关矩阵出发,求得的主成分是一致的。 ( )
(2)对变量做主成分分析之前,必须对原始数据进行标准化。( )
(3)由标准化数据的协方差矩阵出发求得的主成分与由原始数据的相关系数矩阵出发求得的主成分一致。( )
(4)。( )
(5)由于包含原始变量的信息量递减,因而实际应用中选取前几个主成分代替原来的原始变量。( )
(6)当各个变量取值范围相差不大或者是度量单位相同的指标时,一般选择直接从协方差矩阵求解。( )
(7)。 ( )
(8)假设的协方差矩阵为,为的非零特征根, 为对应的单位化的特征向量,则第个主成分为。( )
(9)是的线性组合。 ( )
(10)。( )
(11)主成分的协方差矩阵是对角阵。( )
(12)方差贡献率表明了主成分综合原始变量的能力。( )
3.主成分分析中的信息,是用变量期望的大小来表示的。( )
二. 计算题
1.假设总体的协方差矩阵为,求的主成分并计算第一主成分的累计贡献率。
2.假设总体的相关矩阵为,求的标准化变量的主成分并计算各主成分的贡献率和累计贡献率。
(,)
3.假设总体的协方差矩阵为,求的主成分并计算各主成分的贡献率和累计贡献率,确定应取几个主成分。
4.设的协方差矩阵为
,其中,试求的主成分及主成分具有的特征值。
(,方差为)
三.简答题
1.试述主成分分析的基本思想及求解步骤。
2.简述主成分分析中累积贡献率的具体意义。
第七章因子分析
一.判断题
1.因子载荷矩阵经过旋转后,每个公因子对原始变量的贡献度不变。( )
2.因子分析模型中公共因子是互不相关、不可测的变量,并且。( )
3.因子分析一般从变量的相关系数阵出发求因子模型。( )
4.因子载荷矩阵经过旋转后,变量的共同度不变。( )
5.因子分析模型中特殊因子与公共因子是不相关的。( )
6.因子分析与主成分分析都是一种降维,简化数据的方法,都是通过把原变量转化为新变量的线性组合达到降维的目的。( )
7.主成分分析中,主成分是不唯一的,但在因子分析中,因子模型是唯一的。( )
二. 计算题
1.设标准化变量的协差阵(即相关阵)为
的特征值和相应的单位正交化的特征向量分别为:
要求:
1)计算因子载荷矩阵A,并建立因子模型;
2)计算变量的共同度和公因子的方差贡献,并说明其各自的统计意义。
2. 为研究某一片树叶的叶片形态,选取50片叶测量其长度x1(mm)和宽度x2(mm),按样本数据求得其平均值和协差阵为,求相关系数矩阵,并由出发进行因子分析。
三.简答题
1.简述因子模型中载荷矩阵的统计意义。
2.因子分析与主成分分析的区别与联系
(1)因子分析从变量的相关性出发,根据相关性的大小将变量进行分组,同组变量的相关性较强,不同组变量的相关性较弱,每组代表一个结构,这个结构用一个公因子表示,将变量表示成公因子的线性组合和特殊因子的和。
主成分分析是从空间生成的角度寻找能解释诸多变量变异绝大部分的几组彼此不相关的新变量。
(2)因子分析是把变量表示成公因子的线性组合和特殊因子的和,主成分分析是把主成分表示成各变量的线性组合。
(3)抽取因子的方法不仅有主成分法,还有主轴因子法,极大似然估计法等,主成分分析只有主成分法抽取主成分。
(4)主成分分析中当给定的协差阵或相关系数阵的特征值唯一时,主成分一般是固定的,而因子分析中的因子不是固定的,可以旋转得到不同的因子。
四.下表是以学生六门考试成绩为变量,从相关系数阵出发,以主成分法抽取因子,进行因子分析的部分结果,根据表格回答下列问题:
表1 Total Variance Explained
| Component | Initial Eigenvalues | ||
| Total | % of Variance | Cumulative % | |
| 1 | 3.735 | 62.254 | 62.254 |
| 2 | 1.133 | 18.887 | 81.142 |
| 3 | .457 | 7.619 | 88.761 |
| 4 | .323 | 5.376 | 94.137 |
| 5 | .199 | 3.320 | 97.457 |
| 6 | .153 | 2.543 | 100.000 |
| Component | ||
| 1 | 2 | |
| math | -.806 | .353 |
| phys | -.674 | .531 |
| chem | -.675 | .513 |
| literat | .3 | .306 |
| history | .825 | .435 |
| english | .836 | .425 |
| Component | ||
| 1 | 2 | |
| math | -.387 | .790 |
| phys | -.172 | .841 |
| chem | -.184 | .827 |
| literat | .879 | -.343 |
| history | .911 | -.201 |
| english | .913 | -.216 |
5.
(1)写出变量的相关系数阵的特征根 及 的方差和;
(2)假设用表示主成分,写出前二个主成分的表达式及的贡献率和前两个主成分的累计贡献率并说明累计贡献率的统计意义;
(3)写出旋转后的因子载荷矩阵及因子模型;
(4)求变量math的共同度及因子的方差贡献,并解释,的统计意义;
(5)对因子,进行合理的命名和解释。
第八章相应分析
一.判断题
1.相应分析中,行惯量与列惯量相同。( )
2.对变量进行相应分析时,应首先检验变量之间的性,只有当变量不时,进行相应分析才有意义。( )
3.相应分析实际是对两组高维空间的点的二维投影进行分析,并且相应分析主要是建立在图形分析的基础上,因此,相应分析的结果带有一定的主观性。( )
二.计算题
1.假定有两个因素,每个因素各有两个水平,随机考察100个样品,得到一个二维的列联表如下,求:
(1)频率矩阵;
(2)因素的第一个水平的分布轮廓;
(3)因素两个水平之间的距离;
(4)检验因素是否。(,)
| 因素 | 因素 | |
| 50 | 20 | |
| 10 | 20 | |
一.判断题
1.典型相关分析是研究多组变量之间相关关系的一种多元统计方法。( )
2.典型相关分析是识别并量化两组变量之间的关系,将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合之间的相关关系的研究。( )
3.若是两组变量的第一对典型相关变量,则是的所有线性组合对中相关系数最大的一对。( )
4.进行典型相关分析时,若变量的量纲不同时,需要对变量进行标准化或从相关阵出发求典型相关变量;而若变量的单位相同时,则不需要对数据进行标准化,直接分析即可。( )
5.若是变量的典型相关变量,则
,并且( )
6. 若是变量的典型相关变量,分别是变量的方差阵,是变量的协方差阵,是矩阵的特征根,则(1)。其中为矩阵的秩。( )
(2)若,则第一典型相关系数为。( )
(3)若,分别为矩阵,相应于的特征向量,则即为第一对典型相关变量。( )
7. 典型相关分析中,分别求出两组变量的第一主成分,两个第一主成分即构成第一对典型相关变量。( )
8.利用样本对两组变量进行典型相关分析时,即使互不相关,也有可能得到的典型相关变量的协差阵不为零,因而利用样本数据进行典型相关分析时要对原始变量的协差阵是否为零进行检验。( )
9.典型载荷分析是了解每组变量提取的典型变量解释的该组样本总方差的比例,从而定量的测度典型变量所包含的原始信息量的大小;典型冗余分析是指原始变量与典型变量之间的相关性分析。( )
10.对变量进行相应分析时,应首先检验变量之间的性,只有当变量不时,进行相应分析才有意义。( )
二.以下是对一对二维变量的典型相关分析的结果,请根据结果回答下列问题。
表1 Canonical Correlations
| 1 | .788 |
| 2 | .054 |
| Wilk's Chi-SQ DF Sig. |
| 1 .378 20.930 4.000 .000 |
| 2 .997 .062 1.000 .803 |
| 1 2 |
| x1 -.057 -.140 |
| x2 -.071 .187 |
| 1 | 2 | |
| y1 | -.051 | -.174 |
| y2 | -.080 | .262 |
Explained by Its Own Can. Var.
| 1 | 2 | |
| x1 | -.935 | -.354 |
| x2 | -.927 | .375 |
| Prop | Var | |
| CV1-1 | .867 | |
| CV1-2 | .133 |
(1)写出两对典型相关变量的相关系数;
(2)应该选几对典型相关变量,为什么?并写出典型相关变量;
(3)与其典型相关变量的相关系数是多少?
(4)第一组变量被自身的典型变量解释的方差比例是多少?
三.简答题
1.针对典型相关分析而言,简述典型变量与典型相关系数的概念。
2.简述典型相关分析中典型载荷分析及典型冗余分析的内容与作用。
第十章标度法
一.判断题
1.古典标度法中,若距离矩阵为欧几里得矩阵,则的构图唯一。 ( )
2.所有的距离矩阵都是欧几里得矩阵。( )
3.标度分析中,若内积距离阵的特征根全部大于零,则距离阵为欧几里得矩阵。( )
二.计算题
1.假设距离矩阵,求的拟合构图。
2.给定距离阵,求它的拟合构造点,并说明它是否是欧式型的。
三.简答题
1.简述古典标度分析的思想。
2.论述古典标度法的求解步骤。
