一、秩相关的Spearman等级相关分析
前面介绍了使用非参数方法比较总体的位置或刻度参数,我们同样也可以用非参数方法比较两总体之间的相关问题。秩相关(rank correlation)又称等级相关,它是一种分析和等级间是否相关的方法。适用于某些不能准确地测量指标值而只能以严重程度、名次先后、反应大小等定出的等级资料,也适用于某些不呈正态分布或难于判断分布的资料。
设和分别为和各自在变量X和变量Y中的秩,如果变量X与变量Y之间存在着正相关,那么X与Y应当是同时增加或减少,这种现象当然会反映在(,)相应的秩(,)上。反之,若(,)具有同步性,那么(,)的变化也具有同步性。因此:
(30.1) |
(30.2) |
因此,公式(30.2)可以化简为:
(30.3) |
而在每对+=时达到最小值,最小值求法为:
所以,最小的为:
最大的为:
故秩相关系数的最小值为1-2=-1。
在原假设和不相关的情况为真时,即秩相关系数为0时,的期望值为0,样本的方差为
(30.4) |
(30.5) |
表30.1 职工的销售潜能与销售成绩的秩相关分析
职工编号 | 潜能等级 | 销售成绩 | 成绩等级 | ||
1 | 2 | 400 | 1 | 1 | 1 |
2 | 4 | 360 | 3 | 1 | 1 |
3 | 7 | 300 | 5 | 2 | 4 |
4 | 1 | 295 | 6 | -5 | 25 |
5 | 6 | 280 | 7 | -1 | 1 |
6 | 3 | 350 | 4 | -1 | 1 |
7 | 10 | 200 | 10 | 0 | 0 |
8 | 9 | 260 | 8 | 1 | 1 |
9 | 8 | 220 | 9 | -1 | 1 |
10 | 5 | 385 | 2 | 3 | 9 |
44 |
表明潜能与成绩之间是较强的正相关,高的潜能趋向于好的成绩。秩相关系数原假设为0的t检验统计量为:
查表自由度为8,t=3.05的双侧p=0.0158。在0.05显著水平上,t分布的上临界点为2.30,由于3.05>2.30,因此,拒绝秩相关系数为0的原假设,接受潜能与成绩之间存在秩相关。
二、Corr相关过程
Corr相关过程用于计算变量之间的相关系数,包括Pearson(皮尔逊)的乘积矩相关和加权乘积矩相关。还能产生三个非参数的关联测量:Spearman的秩相关,Kendall的tau-b和Hoeffding的相关性度量D。该过程也可以计算偏相关等一些单变量的描述性统计量。
1. Corr过程说明
proc corr过程一般由下列语句控制:
proc corr data=数据集 <选项>; |
var 变量列表; |
with 变量列表 ; |
partial 变量列表 ; |
weight 变量 ; |
freq 变量 ; |
By 变量列表 ; |
run ; |
2. proc corr语句的选项
outp=数据集名——产生含有Pearson相关系数的一个新数据集。
outs=数据集名——产生含有Spearman等级相关系数的一个新数据集。
outk=数据集名——产生含有Kendallτb相关系数的一个新数据集。
outh=数据集名——产生含有Hoeffding D统计量的一个新数据集。
pearson——要求计算通常的pearson乘积矩相关系数,是缺省值。
hoeffding——要求计算并输出Hoeffding 的D统计量。
kendall——要求计算并输出Kendallτb相关系数。
spearman——要求计算并输出Spearman等级相关系数。
vardef=df | weight | wgt | wdf——指定计算方差时的除数:df(自由度n–1),weight或wgt(权重之和),n(观察数),wdf(权重之和-1)。缺省值为df。
cov——计算协方差-方差矩阵。
sscp ——要求输出平方和与交叉积和。
csscp ——要求输出偏差平方和与交叉积和。
best=数值——对每个变量输出指定个数的绝对值最大的相关系数。
noprint——禁止所有打印输出。
noprob——禁止输出同这些相关有联系的显著性概率。
nosimple——对原始数据执行标准方差分析。
rank——要求按绝对值从高到低的次序对每个变量输出相关系数。
nocorr——抑制Pearson相关的计算及输出。
nomiss ——将带有某一变量缺失值的观测值从所有计算中除去。
nosimple——不输出每个变量的简单描述性统计量。
3. var语句
该语句列出要计算相关系数的变量。例如,var a b c;则计算a和b,a和c,b和c三对变量之间的相关系数。
4. with语句
为了得到变量间的特殊组合的相关系数,该语句和var语句联合使用。用var语句列出的变量在输出相关阵的上方,而用with语句列出的变量竖在相关阵左边。例如,var a b;with x y z;则生成x和a,y和a,z和a,x和b,y和b,z和b。
5. partial语句
为了计算Pearson偏相关,Spearman偏秩相关,Kendall偏tau-b,用该语句给出偏出去(即固定)的变量名。
6. weight语句
为了计算加权的乘积矩相关系数,用该语句给出权数变量名。该语句仅用于Pearson相关。
7. freq语句
当规定freq语句时,输入数据集中的每个观察假定代表n个观察,其中n是该观察中freq变量中的值。观察的总数规定为freq变量值的和。
8. by语句
使用by语句能够获得用by变量定义的分组观察的分析结果。
三、实例分析
例30.1的SAS程序如下:
data study.persons ; |
input x y @@; |
y=400-y; |
cards; |
2 400 4 360 7 300 1 295 6 280 |
3 350 10 200 9 260 8 220 5 385 |
; |
proc corr data=study.persons spearman; |
var x; |
with y; |
run; |
表30.2 用corr过程进行多样本输出结果
Correlation Analysis
1 'WITH' Variables: Y
1 'VAR' Variables: X
Simple Statistics
Variable N Mean Std Dev Median Minimum Maximum
Y 10 95.000000 67.905163 102.500000 0 200.000000
X 10 5.500000 3.027650 5.500000 1.000000 10.000000
Spearman Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 10
X
Y 0.73333
0.0158
结果说明:Spearman等级相关系数为0.73333,是一个比较大的正相关系数。这个相关系数为0的原假设检验结果是p=0.0158<0.05,因此,我们拒绝相关系数为0的原假设,接受了这个0.73333等级相关系数。结论为销售潜能的高低与销售成绩好坏之间存在明显的正相关性。