●的最小二乘估计:选择时的误差项的平方和最小,最后导出
●的最大释然估计:
也是使得所以和上面相同。
【作业2】考虑回归模型:,其中互不相关且, (1)求和的最小二乘估计
(2)设求,的极大似然估计,它们和(1)中的最小二乘估计是否相同?
解:(1)最小二乘估计: 令,,,
则该回归模型课简化为:,要使误差项的平方和:
达到最小,则分别对,求偏导并令其为0,得:
即:,即:
,存在
所以解正规方程即得:的最小二乘估计,即为所求。
(2),则相互,且
所以的似然函数为:
求使达最大,即使达最小,
即,的极大似然估计和(1)中最小二乘估计相同
【作业6】在某水源问题的研究中,考虑下述回归模型:
写出下列情况下的约简模型,检验统计量及检验准则:(1)(3)
解:(1)约简模型,检验统计量
,,,
检验准则:检验假设,给定显著性水平,则
(2)因为,所以约简模型:
检验统计量
,,
假设检验,则
第二章:
●1.主成分分析:,
方法:①由协方差矩阵求特征值;②正交单位化特征向量(将特征值代入,算出X,可以得到关系式,再加上)③各个主成分就是;④第一主成分即为最大除以总和
●2.相关矩阵:另外,在各个变量方差差别太大的情况下,需要将协方差矩阵转换成相关矩阵
【作业1】设总体的协方差矩阵为,求X的主成分和并计算第一主成分的贡献率
解:设特征值为,,得,相应的特征向量,
因此X的主成分,,第一主成分的贡献率为=85.7%
【作业2】变换协方差矩阵为相关矩阵
(1)求其标准化变量的主成分和及第一主成分的贡献率;(2)与第一题中的结果作比较有什么差异?
(3)计算与,与及与之间的相关系数,其中与为与的标准化变量,这些量有何统计意义?
解:(1)得其特征值及其相应的正交单位化特征向量:
,得, ,
则的两个主成分:
,第一主成分的贡献率为:
(2)第一主成分的贡献率有所下降,且,的权重由和变为和,即的相对重要性得到提升
,
统计意义:它反应了变量之间的相关程度,因为是第一主成分,所以相关度比较高
第三章:距离判别和Bayes判别
1.距离判别:①计算样本均值 ②协方差矩阵③无偏估计 ④判断是否等于,得出判别函数W(x)分以下两种情况:
若不等,若相等
注:这里需要求逆矩阵:用矩阵行变换
●2.Bayes判别:概率密度函数:和,先验概率分布为误判损失为,则判别函数为:
【作业1】设为两个二维总体,从中分别抽取容量为3的训练样本如下:,
(1)求两样本的样本均值向量和样本协方差矩阵;(2)假定两总体协方差矩阵相等,记为,用联合估计;(3)建立距离判别法的判别准则;(4)设有一新样品,利用(3)中判别准则判定它属于哪一个。
解:(1),,
(2)
(3)由上可知,,,可求得,
判别函数估计
当, 即
(4)把代入判别函数,可知,所以
【作业3】已知两总体的概率密度函数分别为和,且总体的先验概率分布为误判损失为.(1)按总期望损失达到最小,建立Bayes判别准则;(2)设有一新样品满足,判定的归属问题
解:(1)要使总期望损失L最小,根据题目已知条件可建立Bayes判别准则:
(2)把代入判别函数可得,所以属于
第四章:谱系聚类和模糊聚类
●1.谱系聚类:有三种方法,最短距离法、最长距离法、类平均法
方法:参考【作业1】,三种方法主要在于合并时产生新类的元素不同(min,max,avg)
对样品的距离矩阵不管用什么方法每次都是选取最小距离来做
对于变量的相关系数矩阵不管用什么方法每次都是用最大的系数来做,
●2.模糊聚类:褶积的计算:(把i行和j行写下来,两行中相对应列的元素取最小(两两比较),得到一行,在这行中取最大)
方法:①计算相似系数矩阵R或样品的距离矩阵D;②对于距离矩阵D由得到模糊矩阵A;③判断模糊等价矩阵:计算褶积直到,就是一个模糊等价矩阵记为;④对按从大到小排列;⑤依次从大开始取,得到-截阵(取1,否则取0),元素1的归为一类;画图;
【作业1】考虑下列四个样品的距离矩阵(1)用最短距离法、最长距离法和类平均法对这4个样品聚类,画出聚类谱系图;(2)将D转化为模糊矩阵,利用模糊聚类法作聚类分析,画出谱系图。
解: (1)1.最短距离法:①最小,在水平1上合并
,,最新距离矩阵为
②距离最小,所以在水平2上,合并,
新的距离矩阵为
③ 将{1,2,3},{4}在水平3合并成一个大类,谱系图:
2.最长距离法:
①最小,在水平1上合并
②,,最新距离矩阵为
③距离最小,所以在水平4上,合并,
新的距离矩阵为
④将{1,2},{3,4}在水平11合并成一个大类,谱系图:
3.类平均法:
①最小,在水平1上合并,
②,,最新距离矩阵为
③距离最小,所以在水平4上,合并,
新的距离矩阵为
④将{1,2,4},{3}在水平5.67合并成一个大类,谱系图:
(2)模糊聚类:令,得模糊矩阵,
,
为模糊等价矩阵,元素按大到小排列:
(i)取,得截阵,即自成一类
(ii)取,得截阵,即{1,2},{3},{4}归为三类
(iii)取,得截阵,即{1,2},{3,4}归为二类
(iv)取,得截阵,即全部归为一大类,谱系图:
第五章:
第一节:两种处理方法比较的秩检验:
两种处理方法比较的的随机模型及秩的零分布:总的有N=n+m 所以每个数的秩都可能从0取到N
●代表新方法,有n个数,秩和从到,关于对称
●零分布:
所有可能出现的可能 | …… | |
秩和 | ||
对应每个秩和的概率 |
●Wilcoxon秩和检验
●1.单边假设检验(新方法由于旧方法):要算新方法好于旧方法的概率(p)(不论怎么排序都是求这个),再与比较
题目所给的观测值为所给的新方法的秩和。
●2.双边检验:跟单边检验类似,但是最后的p*2为最后的p 再和比较。
smirnov检验:有两种处理方法,其经验分布函数为,通常m=n
我们将放在一起排序记为:
这样就可以得到
有序的观测值 | |
题目所给观测值 |
●第三节:成对分组下两种处理方法的比较
●1.符号检验:将N个个体先分成若干个小组,每小组两个,使得每个小组的差异较小。
再与比较。
●2.Wilcoxon符号秩检验
将N个个体先分成若干个小组,每小组两个,使得每个小组的差异较小。将每一组的新方法的观测值减去旧方法的观测值(有正有负),将差值从小到大排列,赋予他们秩,将之前的负值在其秩前加负号,这样的排列就是符号秩排列
●代表新方法,因为每一组中的秩都有可能有正有负,所以的取值为0~N
相应的的取值为0~N
●零分布:
所有可能出现的符号秩 | (利用递增的方式写,) | |
(正数的值加起来) | ||
对应每个秩和的概率 |
可以利用上表来算,再与比较。
【作业1】下列情况下,Wilcoxon秩和统计量和的零分布(1)m = 2,n = 4;(2)m = 2,n = 5;(3)m = n = 3
解:(1)N=m+n=6:Wilcoxon秩和统计量零分布:
的零分布为:
(2)N=m+n=7:零分布:
的零分布为:
(3)N=m+n=6:Wilcoxon秩和统计量零分布:
的零分布为:
【作业2】为了解一种心得术后护理方法和原护理方法相比是否显著缩短病人手术后的恢复时间,随机将做完某种手术的18位病人分为两组,每组9人,按不同方法护理,观测他们的恢复时间(单位:天)如下:在下检验方法是否显著缩短了病人手术后的恢复时间,如果对新护理方法是否缩短还是延长恢复时间事先并不清楚,情况又如何?
解:(1)对新方法是否显著缩短恢复时间,应用Wilcoxon单边检验;对两组数据按天数从小到大排序,得两组秩分别为, 新方法秩和=1+4+6+7+8+9+12+14+15=76
,故接受,认为新方法没有比原方法显著缩短病人手术后的恢复时间。
(2)在事先不清楚新方法是否延长还是缩短恢复时间,应用Wilcoxon双边检验
新方法与原方法无显著差异;新方法与原方法有显著差异;由(1)可得排序后的秩
可见,则接受,认为新方法与原方法无显著差异
【作业3】求下列存在结点的观察值的秩及各方法的秩和:
解:按数据从大到小排序得:,由得各组方法观察值的秩为:
,则A方法的秩和:
B方法的秩和:
【作业7】对下列情况求;(1)m=n=13,;(2)m=n=18,
解:(1)因m=n=13,,得a=4,n=13,查表得
(2)因m=n=18,,得a=6,n=18,查表得
【作业11】对下列情况,求符号统计量的零分布;(1)N = 4;(2)N = 5
解:当为真时,服从参数N和的二项分布
(1)当N = 4时,的零分布服从,则由,得
(2)当N = 5时,的零分布服从,则
【作业13】对N = 4 和 N = 5,分别求Wilcoxon符号秩统计量的零分布
解:(1)N = 4时,我们可列出符号秩所有16种可能相应的取值如下:
在之下,每种情况出现的概率均为,故得的零分布为
(2)N = 5时,符号秩公有32种可能性,在之下,每种情况出现的概率均为,故得的零分布为
【作业15】有两种不同的水稻品种,分别种植在一分为二的10块田上,得到他们的产量(单位:公斤)如下:
,
利用Wilcoxon符号秩检验者两种水稻的产量是否有显著性差异()
解:根据所给的数据,可求得其差值(第二行减第一行)及符号秩如下:
建立假设::两种水稻无显著性差异;两种水稻有显著性差异,
则的观测值为:,并且
则
,故拒绝,认为两种水稻无显著性差异
【作业14】考察两种不同催化剂对某一化工产品得率影响,作试验9次,测得数据如下:
,利用双边符号检验和双边Wilcoxon符号秩检验这两种催化剂对该化工产品得率的影响是否显著()
解:建立假设::两种催化剂对该化工产品得率无显著性影响;两种催化剂对该化工产品得率有显著性影响
表示催化剂A的观测值大于催化剂B的观测值的组数,由测量结果得差值表(第一行减第二行):
(1)双边符号检验:由差值表显然可得,
,故接受,认为两种催化剂对该化工产品得率无显著性影响
(2)双边Wilcoxon检验:
,,
故接受,认为两种催化剂对该化工产品得率无显著性影响
【证明定理2.1.1】设是的协方差矩阵,的特征值及相应的正交单位化特征向量分别为及,则X的第i个主成分为,并且有
证明:令,则P为一正交矩阵,且,其中表示对角矩阵.
设为X的第一主成分,其中.令,
则
并且当时,等号成立.这时
由此可知,在约束之下,时,达到最大,且
为证明一般情况,我们先证明如下结论:若,则
其中表示与均正交,即
事实上,令,则 ①
且,由此可得:
因而 ②
若取,其中第i个元素为1,其余均为零,这时由①②知且,
这时,且达到最大值,
并且有,定理得证.
【证明P87】设,此时,考察样品x到两总体的马氏距离的平方差,由于
【证明Bayes判别】设为两个p维总体,概率密度分别为和,总体的先验概率分布为和,误判损失分别为和,对的一个划分,
有,
根据,总体期望损失为
最后一个等式成立是因为.由于第二项与D无关,要使L达到最小,只需第一项达到最小,这只需为②中的被积函数取非正值的范围即可,即取为
此时
Bayes判别准则得证