最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

SAS讲义_第三十课_Spearman等级相关分析

来源:动视网 责编:小OO 时间:2025-09-23 21:02:05
文档

SAS讲义_第三十课_Spearman等级相关分析

第三十课Spearman等级相关分析一、秩相关的Spearman等级相关分析前面介绍了使用非参数方法比较总体的位置或刻度参数,我们同样也可以用非参数方法比较两总体之间的相关问题。秩相关(rankcorrelation)又称等级相关,它是一种分析和等级间是否相关的方法。适用于某些不能准确地测量指标值而只能以严重程度、名次先后、反应大小等定出的等级资料,也适用于某些不呈正态分布或难于判断分布的资料。设和分别为和各自在变量X和变量Y中的秩,如果变量X与变量Y之间存在着正相关,那么X与Y应当是同时增加
推荐度:
导读第三十课Spearman等级相关分析一、秩相关的Spearman等级相关分析前面介绍了使用非参数方法比较总体的位置或刻度参数,我们同样也可以用非参数方法比较两总体之间的相关问题。秩相关(rankcorrelation)又称等级相关,它是一种分析和等级间是否相关的方法。适用于某些不能准确地测量指标值而只能以严重程度、名次先后、反应大小等定出的等级资料,也适用于某些不呈正态分布或难于判断分布的资料。设和分别为和各自在变量X和变量Y中的秩,如果变量X与变量Y之间存在着正相关,那么X与Y应当是同时增加
第三十课Spearman等级相关分析

一、秩相关的Spearman等级相关分析

前面介绍了使用非参数方法比较总体的位置或刻度参数,我们同样也可以用非参数方法比较两总体之间的相关问题。秩相关(rank correlation)又称等级相关,它是一种分析和等级间是否相关的方法。适用于某些不能准确地测量指标值而只能以严重程度、名次先后、反应大小等定出的等级资料,也适用于某些不呈正态分布或难于判断分布的资料。

设和分别为和各自在变量X和变量Y中的秩,如果变量X与变量Y之间存在着正相关,那么X与Y应当是同时增加或减少,这种现象当然会反映在(,)相应的秩(,)上。反之,若(,)具有同步性,那么(,)的变化也具有同步性。因此:

(30.1)
具有较小的数值。如果变量X与变量Y之间存在着负相关,那么X与Y中一个增加时,另一个在减小,具有较大的数值。既然由(,)构成的样本相关系数反映了X与Y之间相关与否的信息,那么在参数相关系数的公式中以和分别代替和,不是同样地反映了这种信息吗?基于这种想法,Charles Spearman秩相关系数应运而生:

(30.2)
与形式上完全一致,但在中的秩,不管X与Y取值如何,总是只取1到之间的数值,因此它不涉及X与Y总体其他的内在性质,例如,秩相关不需要总体具有有限两阶矩的要求。由于:

因此,公式(30.2)可以化简为:

(30.3)
显然在=时,秩相关系数达到最大值+1。又因为:

而在每对+=时达到最小值,最小值求法为:

所以,最小的为:

最大的为:

故秩相关系数的最小值为1-2=-1。

在原假设和不相关的情况为真时,即秩相关系数为0时,的期望值为0,样本的方差为

(30.4)
自由度为且分布关于零点对称。当10时,的样本分布可以标准化为近似的t分布:

(30.5)
例30.1某公司想要知道是否职工期望成为好的销售员而实际上就能有好的销售记录。为了调查这个问题,公司的副总裁仔细地查看和评价了公司10个职工的初始面试摘要、学科成绩、推荐信等材料,最后副总裁根据他们成功的潜能给出了单独的等级评分。二年后获得了实际的销售记录,得到了第二份等级评分,见表30.1中的第1到4列所示。统计问题为是否职工的销售潜能与开始二年的实际销售成绩一致。

表30.1             职工的销售潜能与销售成绩的秩相关分析

职工编号潜能等级

销售成绩成绩等级

12400111
24360311
37300524
412956-5

25
562807-1

1
633504-1

1
7102001000
89260811
982209-1

1
105385239
44
Spearman秩相关系数的计算过程见表30.1中的第5到6列所示,最后计算结果为

表明潜能与成绩之间是较强的正相关,高的潜能趋向于好的成绩。秩相关系数原假设为0的t检验统计量为:

查表自由度为8,t=3.05的双侧p=0.0158。在0.05显著水平上,t分布的上临界点为2.30,由于3.05>2.30,因此,拒绝秩相关系数为0的原假设,接受潜能与成绩之间存在秩相关。

二、Corr相关过程

Corr相关过程用于计算变量之间的相关系数,包括Pearson(皮尔逊)的乘积矩相关和加权乘积矩相关。还能产生三个非参数的关联测量:Spearman的秩相关,Kendall的tau-b和Hoeffding的相关性度量D。该过程也可以计算偏相关等一些单变量的描述性统计量。

1. Corr过程说明

proc corr过程一般由下列语句控制:

proc corr  data=数据集 <选项>;

var        变量列表;

with       变量列表 ;

partial    变量列表 ;

weight     变量 ;

freq       变量 ;

By         变量列表 ;

run ;
proc corr语句调用corr过程,且是唯一必需的语句。如果只使用proc corr这一条语句,过程计算输入数据集中所有数值变量之间的相关系数。其余语句是供选择的。

2. proc corr语句的选项

outp=数据集名——产生含有Pearson相关系数的一个新数据集。

outs=数据集名——产生含有Spearman等级相关系数的一个新数据集。

outk=数据集名——产生含有Kendallτb相关系数的一个新数据集。

outh=数据集名——产生含有Hoeffding D统计量的一个新数据集。

pearson——要求计算通常的pearson乘积矩相关系数,是缺省值。

hoeffding——要求计算并输出Hoeffding 的D统计量。

kendall——要求计算并输出Kendallτb相关系数。

spearman——要求计算并输出Spearman等级相关系数。

vardef=df | weight | wgt | wdf——指定计算方差时的除数:df(自由度n–1),weight或wgt(权重之和),n(观察数),wdf(权重之和-1)。缺省值为df。

cov——计算协方差-方差矩阵。

sscp ——要求输出平方和与交叉积和。

csscp ——要求输出偏差平方和与交叉积和。

best=数值——对每个变量输出指定个数的绝对值最大的相关系数。

noprint——禁止所有打印输出。

noprob——禁止输出同这些相关有联系的显著性概率。

nosimple——对原始数据执行标准方差分析。

rank——要求按绝对值从高到低的次序对每个变量输出相关系数。

nocorr——抑制Pearson相关的计算及输出。

nomiss ——将带有某一变量缺失值的观测值从所有计算中除去。

nosimple——不输出每个变量的简单描述性统计量。

3. var语句

该语句列出要计算相关系数的变量。例如,var a b c;则计算a和b,a和c,b和c三对变量之间的相关系数。

4. with语句

为了得到变量间的特殊组合的相关系数,该语句和var语句联合使用。用var语句列出的变量在输出相关阵的上方,而用with语句列出的变量竖在相关阵左边。例如,var a b;with x y z;则生成x和a,y和a,z和a,x和b,y和b,z和b。

5. partial语句

为了计算Pearson偏相关,Spearman偏秩相关,Kendall偏tau-b,用该语句给出偏出去(即固定)的变量名。

6. weight语句

为了计算加权的乘积矩相关系数,用该语句给出权数变量名。该语句仅用于Pearson相关。

7. freq语句

当规定freq语句时,输入数据集中的每个观察假定代表n个观察,其中n是该观察中freq变量中的值。观察的总数规定为freq变量值的和。

8. by语句

使用by语句能够获得用by变量定义的分组观察的分析结果。

三、实例分析

例30.1的SAS程序如下:

data study.persons ;
input x y @@;
y=400-y;
       cards;
2  400  4  360  7 300  1 295  6 280 
3  350 10  200  9 260  8 220  5 385
;
proc corr data=study.persons spearman;
     var  x;
with y;
run;
程序说明:建立输入数据集persons ,要注意实际数据所表示的等级次序大小与SAS系统中自动给出的等级次序大小的不同。输入变量x,获得从1到10的数据,表示潜能等级从最高到最低,而输入变量y,获得从最大销售额400到最小销售额220,转换销售成绩等级应该是从高到低,即从1到10。但在SAS系统中把销售成绩数值从小到大按等级值从1到10给予。因此,需要颠倒变量x或变量y中数值大小的次序,本程序用最大销售额400减去原来的销售额实现次序颠倒,即语句y=400-y。等级相关与一般参数相关一样仍然调用corr过程,只需要在选择项中指定为何种等级相关,我们选择计算spearman秩相关系数。var语句列出要计算相关系数的第一个变量x,with语句必须要与var语句联合使用,列出的要计算相关系数的第二变量y。主要结果如表30.2所示。

表30.2               用corr过程进行多样本输出结果

Correlation Analysis

                                   1 'WITH' Variables:  Y

                                   1 'VAR'  Variables:  X

                                       Simple Statistics

  Variable             N          Mean       Std Dev        Median       Minimum       Maximum

  Y                   10     95.000000     67.905163    102.500000             0    200.000000

  X                   10      5.500000      3.027650      5.500000      1.000000     10.000000

           Spearman Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 10

                                                        X

                                      Y           0.73333

                                                   0.0158

结果说明:Spearman等级相关系数为0.73333,是一个比较大的正相关系数。这个相关系数为0的原假设检验结果是p=0.0158<0.05,因此,我们拒绝相关系数为0的原假设,接受了这个0.73333等级相关系数。结论为销售潜能的高低与销售成绩好坏之间存在明显的正相关性。

文档

SAS讲义_第三十课_Spearman等级相关分析

第三十课Spearman等级相关分析一、秩相关的Spearman等级相关分析前面介绍了使用非参数方法比较总体的位置或刻度参数,我们同样也可以用非参数方法比较两总体之间的相关问题。秩相关(rankcorrelation)又称等级相关,它是一种分析和等级间是否相关的方法。适用于某些不能准确地测量指标值而只能以严重程度、名次先后、反应大小等定出的等级资料,也适用于某些不呈正态分布或难于判断分布的资料。设和分别为和各自在变量X和变量Y中的秩,如果变量X与变量Y之间存在着正相关,那么X与Y应当是同时增加
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top