
在多元统计分析中,多元正态分布占有相当重要的地位.这是因为许多实际问题涉及到的随机向量服从正态分布或近似服从正态分布;当样本量很大时,许多统计量的极限分布往往和正态分布有关;此外,对多元正态分布,理论与实践都比较成熟,已有一整套行之有效的统计推断方法.基于这些理由,我们在介绍多元统计分析的种种具体方法之前,首先介绍多元正态分布的定义、性质及多元正态分布中参数的估计问题.
§2.1 随机向量
§2.2 多元正态分布的定义与基本性质
§2.3 条件分布和性
§2.4 多元正态分布的参数估计
§2.1 随机向量
本课程所讨论的是多变量总体.把p个随机变量放在一起得X=(X1,X2,…,Xp)′为一个p维随机向量,如果同时对p维总体进行一次观测,得一个样品为 p 维数据.常把n个样品排成一个n×p矩阵,称为样本资料阵.
其中 X(i)( i=1,…,n)是来自p维总体的一个样品.
在多元统计分析中涉及到的都是随机向量,或是多个随机向量放在一起组成的随机矩阵.
本节有关随机向量的一些概念(联合分布,边缘分布,条件分布,性;X的均值向量,X的协差阵和相关阵,X与Y的协差阵)要求大家自已复习.
三﹑ 均值向量和协方差阵的性质
(1)设X,Y为随机向量,A,B为常数阵,则
E(AX)=A·E(X),
E(AXB)=A·E(X)·B
D(AX)=A·D(X)·A'
COV(AX,BY)=A·COV(X,Y)·B'
(2) 若X,Y相互,则COV(X,Y)=O;反之不成立.
若COV(X,Y)=O,我们称X与Y不相关.故有:
两随机向量若相互,则必不相关;
两随机向量若不相关,则未必相互.
(3) 随机向量X=(X1,X2,…,Xp)′的协差阵D(X)=是对称非负定阵.即 =´ , ´ ≥0 (为任给的p维常量).
(4) Σ=L2 ,其中L为非负定阵.
由于Σ≥0(非负定),利用线性代数中实对称阵的对角化定理,存在正交阵Γ,使
当矩阵Σ>0(正定)时,矩阵L也称为Σ的平方根矩阵,记为 . 当矩阵Σ>0(正定)时,必有p×p非退化矩阵A使得 Σ=AA′
若Σ≥0(非负定),必有p×q矩阵使得 Σ=′
这里记Γ=(Γ1 | Γ2) , Γ1为p×q列正交阵(p ≥ q).并设:
§2.2 多元正态分布的定义
在一元统计中,若U~N(0,1),则U的任意线性变换X=σU+μ~N(μ,)。利用这一性质,可以从标准正态分布来定义一般正态分布:若U~N(0,1),则称X =σU+μ的分布为一般正态分布,记为X ~N(μ, )。
此定义中,不必要求σ>0,当σ退化为0时仍有意义。把这种新的定义方式推广到多元情况,可得出多元正态分布的第一种定义。
定义2.2.1 设U=(,…,Uq)′为随机向量, ,…,Uq相互且同N(0,1)分布;设μ为p维常数向量,A为p×q常数矩阵,则称X=AU + μ的分布为p维正态分布,或称X为p 维正态随机向量,记为X ~ Np(μ, AA′)。
简单地说,称q个相互的标准正态随机变量的一些线性组合构成的随机向量的分布为多元正态分布。
§2.2 多元正态分布的性质1
在一元统计中,若则X的特征函数为
当 X~N(0,1)时,φ(t)=exp[- /2].
性质1 设U= (,…,Uq)′为随机向量, , …,Uq 相互且同 N(0,1)分布;令X=μ+AU,则X的特征函数为
这里t=(,…,), 故ΦX(t)为p元函数.
性质1的证明:
根据随机向量特征函数的定义和性质,经计算即可得出X的特征函数为ΦX(t)= E(eitX)= E(eit (AU+μ) )
令t′A=s′=(,…)
§2.2 多元正态分布的第二种定义
记Σ=AA′,则有以下定义。
定义2.2.2 若p维随机向量X的特征函数为:
则称X服从 p 维正态分布,记为X ~Np(μ,Σ) .
一元正态: (p=1)
§2.2 多元正态分布的性质2
性质2 设X~Np(μ,Σ), B为s×p常数阵,d为s×1常向量,令Z=BX+d,则Z~Ns(Bμ+d , BΣB ).
该性质指出正态随机向量的任意线性组合仍为正态分布.
证明: 因Σ ≥0, Σ可分解为Σ=AA ,其中A为p×q 矩阵.已知X~Np(μ,Σ),由定义2.2.1可知X = AU+μ (d表示两边的随机向量服从相同的分布.)
其中U=(,…,Uq),且,…,Uq 相互同 N(0,1)分布。
Z=BX+d = B(AU+μ)+d = (BA)U+(Bμ+d)
由定义2.2.1可知
Z ~Ns(Bμ+d, (BA)(BA)),
即Z ~Ns(Bμ+d, BΣB).
(这里Σ=AA).
推论 设X= ~Np(μ,Σ),将μ,Σ剖分为
则 ~ (,),
~ (,).
证明:取=,r维向量=0,由性质2可得: 类似地
此推论指出,多元正态分布的边缘分布仍为正态分布。但反之,若随机向量的任何边缘分布均为正态分布,也不一定能导出该随机向量服从多元正态分布.
如例2.1.1,证明了,均为一元正态分布,但由(,) 联合密度函数的形式易见它不是二元正态.
例2.1.1 (,)的联合密度函数为
我们从后面将给出的正态随机向量的联合密度函数的形式可知, (,)不是二元正态随机向量.但通过计算边缘分布可得出:
,
这就说明若随机向量的任何边缘分布均为正态分布时,也不一定能导出该随机向量服从多元正态分布.
例如:设三维随机向量X=(,,),且
(2)
由性质2知,Y为3维正态随机向量,且
(3) 设,试求随机变量Z的分布.
=(2,-1,3)X=CX
故有:
性质3 若X~Np(μ,Σ),E(X)=μ,D(X)=Σ.
证明 : 因Σ≥0,Σ可分解为:Σ=AA′,则由定义2.2.1可知
X = AU+μ (A为p×q实矩阵)
其中U=(,…,)′,且,…, 相互同N(0,1)分布,故有E(U )=0, D(U )=Iq .
利用均值向量和协差阵的有关性质可得:
此性质给出多元正态分布中参数μ和Σ的明确统计意义.μ是随机向量X的均值向量,Σ是随机向量X的协差阵。
如简单例子中,由性质2知Z服从正态分布,利用性质3,
性质4 设X=(X1,…,Xp)′为p维随机向量,则X服从p维正态分布 对任一p维实向量a,ξ=a′X是一维正态随机变量.
证明:必要性的证明由性质2即得(只须取B=a′,d=0即可).
充分性的证明:① 首先说明随机向量X的均值和协方差阵存在:因对任给p维实向量 t∈R p, ξ= t′X~一元正态分布,可知ξ的各阶矩存在,如取t = =(0,…,1,…,0)′, =′X,且E() (i=1,2,…,p) 存在,E() (i=1,2,…,p) 也存在.
再比如取 t =(0,…,1,0,…1,..,0)′, ξ= t ′X= + ,且E(ξ )=E(+) (i,j=1,2,…,p) 存在. E() =E[]= E()+ 2E()+ E()也存在, 即E( ) (i,j=1,2,…,p)存在.
故E(),Cov(,)=E( )-E() E() (i,j=1,…,p)存在.
记E(X)=μ, D(X)=Σ.
② 计算ξ的特征函数:
对任意给定的t∈,因随机变量ξ=t X服从
N(tμ,t Σ t).,故知ξ的特征函数为
ξ(θ)=E( )
=exp[iθ(tμ) - (t Σt)/2]
③ 计算随机向量X的特征函数:
在ξ的特征函数中,取θ=1,即得
=E()=E(t X)=ΦX(t) = exp[it μ- t Σt / 2]由定义2.2.2可知,X~Np(μ,Σ).
定义2.2.3 若p维随机向量X的任意线性组合均服从一元正态分布,则称X为p维正态随机向量.
在概率论中大家都知道一元正态随机变量的密度函数是
这个式子可改写为:
作为一元正态随机变量的推广,以下性质来导出多元正态随机向量的联合密度函数.
性质5 设X~Np(μ,Σ),且Σ>0 (正定),则X的联合密度函数为
证明 ① 因Σ>0,rk(Σ)=p,由线性代数的知识知存在非奇异方阵A,使得Σ=AA′,且 X = AU+μ
其中U=(,…,Up)′,且,…,Up相互同N(0,1)分布。
② U的联合密度函数(p元函数)为
③ 利用U的联合密度函数及随机向量的变换求X=AU+μ的密度函数。对任给Borel可测集B,求p元函数fX(x)使得
其中
根据附录§8 (P397)公式(8.4),即有
以下来求Jacobi行列式J(u→x).
④ 积分变 换 的Jacobi行 列 式J(u→x)可利用线性变换x=Au+μ及J(x→u)来计算: 因
故
关于积分变换的Jacobi行列式J(u→x)的有关内容请参阅附录部分。
⑤ 写出X=AU+μ的密度函数:
( 这里Σ=AA′, )
定义2.2.4 p 维随机向量X=(,…Xp)′的联合密度函数为
其中μ是p维实向量,Σ是p阶正定阵,则称X=(,…Xp )′服从(非退化的)p元正态分布.也称X为p维正态随机向量,简记为
X~Np(μ,Σ).
以上给出了多元正态分布的4种定义。定义2.2.4用密度函数给出定义,它可看成一元正态密度的直接推广;但在这个定义里要求Σ是正定阵,它给出的是非退化的正态分布的定义。 另三种定义中把Σ阵推广到非负定的情形,这三种定义是等价的。
例2.2.1(二元正态分布)
(即>0,>0,|ρ|<1)
(1)试写出X的联合密度函数和边际密度函数;
(2)试说明ρ的统计意义。
解:(1)因
二元正态随机向量X的联合密度函数为
另由性质2的推论,即得
(2)因Cov(X1 ,X2)=σ12 =ρσ1σ2 ,而X1与X2的相关系数为
故二元正态分布的参数ρ就是两个分量的相关系数.
显然 当ρ=0时,f(,)= ()· (),即与相互.当|ρ|=1时,|Σ|=0 (Σ退化,即Σ的列向量或行向量线性相关),则存在非零向量t =(,) ,使得Σt =0, 从而tΣ t =0,故而随机变量ξ=t (X-μ)的方差为Var[t (X-μ)]= tΣ t =0,这表示 P{t (X-μ)=0}=1.
即 (-)+ (-)=0以概率1成立;反之,若与以概率1存在线性相关关系,则|ρ|=1.
当ρ>0时,我们称与存在正相关;
当ρ<0时,我们称与存在负相关.
例2.2.2 二元正态密度函数的图形及等高线的图形
为了对正态密度函数有更直观地了解,下面的例子给出几组参数下二维正态密度函数的几何图形.我们把具有等密度的点的轨迹称为等高线(面).
显然当 p=2 时 f()=C (C>0)
它是一族中心在(,)′的椭园.
一般的p维正态密度等高面为 =
取=0,=0,以下绘制三组参数下二元正态密度函数及密度等高线图形:(1)当 时
(2)当时
(3)当时
§2.3 条件分布和性--性
设X~ (μ,Σ) (p≥2),将X,μ,Σ剖分为
,
以下是关于性的一条重要结论:
定理2.3.1 设p维随机向量X~ (μ,Σ),
则与相互=(即与不相关)
证明:必要性显然成立.
(充分性):设=0 ,则X的联合密度函数为
所以与相互.
推论1 设≥1(i=1,…,k),且+ +…+ =p,
则,…,相互=0(一切i≠j)
推论2 设X~ (μ,Σ),若Σ为对角形矩阵,则,…, 相互.
例如:设三维随机向量X=(, ,)',且
则有(1)
(2);
(3)与 ,与 ,也相互;
(4)也相互;
更一般地,也相互;
(5)令,则;且
(6)Y的密度函数为
的密度函数为
故二维随机向量Z的联合密度函数为
§2.4 多元正态分布的参数估计
考虑p维正态总体X~ (μ,Σ), 设=(,…, )′(i=1,…,n)为p维总体X的简单随机样本,资料阵
是一个随机矩阵.
(1)样本均值向量
中心化数据阵:
记G=,则G=,
(2)样本离差阵A (交叉乘积阵)
=
其中 (i,j=1,2………p)
或者把A表为:
()
或者把A表为:
(3)样本协方差S:
(4)样本相关阵R:
例:设从某书店随机抽取4张收据了解图书的销售情况.每张收据记录售书数量X2及总金额X1,具体数值如下:
(n=4 ,p=2)
试计算样本均值,样本离差阵,样本协差阵和相关阵.
解:
样本离差阵A的计算公式为:
或
此例中,
其中,为中心化数据阵。
故A=
样本协方差阵S:
样本相关阵R为:
μ,Σ的最大似然估计
设 (i=1,…,n) 为p维正态总体N(μ,Σ) 的随机样本,以下用最大似然法来求参数μ,Σ的最大似然估计.
定理2.5.1 设 (i=1,…,n) 是多元正态总体 (μ,Σ)的随机样本,n>p,则μ,Σ的最大似然估计为
参数的最大似然估计有很多优良性标准,如无偏性,有效性,相合性等.μ和 Σ的最大似然估计是否具有这些好的性质呢?这是我们现在要讨论的问题.
定理2.5.2 设X和A分别为p元正态总体 (μ,Σ )的样本均值向量和样本离差阵,则
(1);
(2)同 (μ,Σ );
(3)和A相互;
(4)。 (证明不要求)
()
性质1:无偏性
因为
故(样本均值)是μ的无偏估计.
因
故Σ的最大似然估计量不是无偏估计.
而样本协差阵S是Σ的无偏估计:
性质2:有效性
可以证明X,S是μ,Σ的“最小方差”无偏估计量,即X,S是μ,Σ 的有效估计量(见参考文献[2]).
性质3:相合性(一致性)
利用强大数律还可以证明:
性质4:其它
还可以证明最大似估计量是μ,Σ的充分统计量;
是μ的极小极大估计(最大风险达最小);且估计量具有渐近正态性.
为了从参数μ,Σ的最大似然估计来导出参数函数 g(μ,Σ)的最大似然估计,下面我们来介绍一条有用的结论.
定理2.5.2 设参数向量θ的函数为 g(θ)=ω,θ是θ的最大似然估计.则有是ω=g(θ)的最大似然估计.
