
一、教学大纲要求
(一)掌握内容
1.多元线性回归分析的概念:多元线性回归、偏回归系数、残差。
2.多元线性回归的分析步骤:多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。
3.多元线性回归分析中的假设检验:建立假设、计算检验统计量、确定值下结论。
4.logistic回归模型结构:模型结构、发病概率比数、比数比。
5.logistic回归参数估计方法。
6.logistic回归筛选自变量:似然比检验统计量的计算公式;筛选自变量的方法。
(二)熟悉内容 常用统计软件(SPSS及SAS)多元线性回归分析方法:数据准备、操作步骤与结果输出。
(三)了解内容 标准化偏回归系数的解释意义。
二、教学内容精要
(一) 多元线性回归分析的概念
将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量与多个自变量X间的线形依存关系,称为多元线形回归(multiple linear regression),简称多元回归(multiple regression)
基本形式:
式中为各自变量取某定值条件下应变量均数的估计值,,,…,为自变量,为自变量个数,为回归方程常数项,也称为截距,其意义同直线回归,,,…, 称为偏回归系数(partial regression coefficient),表示在除以外的自变量固定条件下,每改变一个单位后的平均改变量。
(二) 多元线性回归的分析步骤
是与一组自变量,,…,相对应的变量的平均估计值。
多元回归方程中的回归系数,,…, 可用最小二乘法求得,也就是求出能使估计值和实际观察值的残差平方和为最小值的一组回归系数,,…, 值。根据以上要求,用数学方法可以得出求回归系数,,…, 的下列正规方程组(normal equation):
式中
常数项可用下式求出:
(三)多元线性回归分析中的假设检验
在算得各回归系数并建立回归方程后,还应对此多元回归方程作假设检验,判断自变量,,…,是否与真有线性依存关系,也就是检验无效假设(), 备选假设为各值不全等于0或全不等于0。
检验时常用统计量
式中为个体数,为自变量的个数。
式中
(四) logistic回归模型结构
设为一组自变量,为应变量。当是阳性反应时,记为=1;当是阴性反应时,记为=0。用表示发生阳性反应的概率;用表示发生阴性反应的概率,显然+=1。
Logistic回归模型为:
同时可以写成:
式中是常数项;是与研究因素有关的参数,称为偏回归系数。
事件发生的概率与之间呈曲线关系,当在之间变化时, 或在(0,1)之间变化。
若有例观察对象,第名观察对象在自变量作用下的应变量为,阳性反应记为=1,否则=0。相应地用表示其发生阳性反应的概率;用表示其发生阴性反应的概率,仍然有+=1。和的计算如下:
这样,第个观察对象的发病概率比数(odds)为,第个观察对象的发病概率比数为,而这两个观察对象的发病概率比数之比值便称为比数比(odds ratio)。对比数比取自然对数得到关系式:
ln
等式左边是比数比的自然对数,等式右边的是同一因素的不同暴露水平与之差。的流行病学意义是在其它自变量固定不变的情况下,自变量的暴露水平每改变一个测量单位时所引起的比数比的自然对数改变量。或者说,在其他自变量固定不变的情况下,当自变量的水平每增加一个测量单位时所引起的比数比为增加前的倍。同多元线性回归一样,在比较暴露因素对反应变量相对贡献的大小时,由于各自变量的取值单位不同,也不能用偏回归系数的大小作比较,而须用标准化偏回归系数来做比较。标准化偏回归系数值的大小,直接反映了其相应的暴露因素对应变量的相对贡献的大小。标准化偏回归系数的计算,可利用有关统计软件在计算机上解决。
(五)logistic回归参数估计
由于logistic回归是一种概率模型,通常用最大似然估计法(maximum likelihood estimate)求解模型中参数的估计值。
为在作用下的阳性事件(或疾病)发生的指示变量。其赋值为:
第个观察对象对似然函数的贡献量为:
当各事件是发生时,则个观察对象所构成的似然函数是每个观察对象的似然函数贡献量的乘积,即
式中∏为从1到的连乘积。
依最大似然估计法的原理,使得达到最大时的参数值即为所求的参数估计值,计算时通常是将该似然函数取自然对数(称为对数似然函数)后,用Newton—Raphson迭代算法求解参数估计值。
(六)logistic回归筛选自变量
在logistic回归中,筛选自变量的方法有似然比检验(likelihood ratiotest)、计分检验(score test)、Wald检验(Wald test)三种。其中似然比检验较为常用,
用Λ表示似然比检验统计量,计算公式为:
式中为自然对数的符号,为方程中包含个自变量的似然函数值,为在方程中包含原个自变量的基础上再加入1个新自变量后的似然函数值。在无效假设条件下,统计量Λ服从自由度为1的分布。当时,则在水平上拒绝无效假设,即认为对回归方程的贡献具有统计学意义,应将引入到回归方程中;否则,不应加入。逆向进行即可剔除自变量。
三、典型试题分析
(一)单项选择题
1.多元线性回归分析中,反映回归平方和在应变量的总离均差平方和中所占比重的统计量是( )。
A.复相关系数
B.偏相关系数
C.偏回归系数
D. 确定系数
答案:D
[评析] 本题考点:多元线性回归中的几个概念的理解。
多元线性回归中的偏回归系数(multiple linear regression)表示在其它自变量固定不变的情况下,自变量每改变一个单位时,单独引起应变量的平均改变量。确定系数(coefficient of determination)表示回归平方和占总离均差平方和的比例,简记为。即 。确定系数的平方根即称为复相关系数(multiple correlation coefficient),它表示个自变量共同对应变量线性相关的密切程度,它不取负值, 即0≤≤1。
2.Logistic回归分析适用于应变量为( )。
A.分类值的资料 B.连续型的计量资料
C.正态分布资料 D.一般资料
答案:A
[评析] 本题考点:logistic回归的概念。
logistic回归属于概率型回归,可用来分析某类事件发生的概率与自变量之间的关系。适用于应变量为分类值的资料,特别适用于应变量为二项分类的情形。模型中的自变量可以是定性离散值,也可以是计量观测值。
(二)计算题
根据表11-2数据,分别用SPSS统计软件、SAS统计软件写出多元线性回归的统计分析步骤及其简要结果。
表11-1 某学校20名一年级女大学生肺活量及有关变量测量结果
编号 体重/胸围/肩宽/肺活量
| /L |
2 49.0 84.1 34.5 3.13
3 42.8 78.3 31.0 1.91
4 55.0 77.1 31.0 2.63
5 45.3 81.7 30.0 2.86
6 45.3 74.8 32.0 1.91
7 51.4 73.7 36.5 2.98
8 53.8 79.4 37.0 3.28
9 49.0 72.6 30.1 2.52
10 53.9 79.5 37.1 3.27
11 48.8 83.8 33.9 3.10
12 52.6 88.4 38.0 3.28
13 42.7 78.2 30.9 1.92
14 52.5 88.3 38.1 3.27
15 55.1 77.2 31.1 2.
16 45.2 81.6 30.2 2.85
17 51.4 78.3 36.5 3.16
18 48.7 72.5 30.0 2.51
19 51.3 78.2 36.4 3.15
20 45.8 75.0 32.5 1.94
答案:
SPSS:数据文件:“EXAP11—2.sav”。 数据格式:4列20行。过程:
Statistic
...
Dependent:Y
Independent(s):,,
: Enter
结果:
Variables Entered/Removed
| Model | Variables Entered | Variables Removed | Method | |
| 1 | (肩宽), (胸围), (体重) | . | Enter |
b Dependent Variable: Y(肺活量)
Model Summary
| Model | R | R Square | Adjusted RSquare | Std. Error of the Estimate | |
| 1 | .846 | .715 | .662 | .23 |
ANOVA
Model
| Sum of Squares | df | Mean Square | F | Sig. | ||
| 1 Regression Residual Total | 3.367 1.339 4.706 | 3 16 19 | 1.122 8.368E-02
| 13.413
| .000
|
b Dependent Variable: Y
Coefficients
Model
| Unstandardized Coefficients
| Standardized Coefficients | t | Sig.
| |||
| B | Std. Error | Beta | ||||
| 1(Constant) | -4.676 6.036E-02 3.508E-02 5.010E-02 | 1.321 .021 .015 .029 | .474 .333 .307 | -3.541 2.9 2.272 1.735 | .003 .010 .037 .102 | |
SAS:
数据步 过程步
D;INPUT x1 x2 x3 y@ @; ;
CARDS; ;
50.8 73.2 36.3 2.96…45.8 75.0 32.5 1.94; ;
结果:
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 3 3.36732 1.12244 13.41 0.0001
Error 16 1.333 0.08368
Corrected Total 19 4.70626
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 -4.67553 1.32051 -3.54 0.0027
X1 1 0.06036 0.02082 2.90 0.0105
X2 1 0.03508 0.01544 2.27 0.0372
X3 1 0.05010 0.02888 1.73 0.1020
[评析] 本题考点:统计软件关于多元线性回归的分析方法及主要输出结果。
根据SPSS或SAS的输出结果,可进行以下分析:
1.检验H0:的方差分析表。F=13.413,P=0.0001,拒绝H0,肺活量至少与一个自变量存在线性关系。
2.估计偏回归系数b1,b2,b3,给出多元线性回归方程,R2=0.715,Ra2=0.662。
3.偏回归系数检验,见表11-2。
表11-2 偏回归系数估计值及其检验
| 偏回归系数 | 估计值 | SE | t | P |
| b0 | -4.675 | 1.321 | -3.54 | 0.00 |
| b1 | 0.060 | 0.021 | 2.90 | 0.01 |
| b2 | 0.035 | 0.015 | 2.27 | 0.04 |
| b3 | 0.050 | 0.029 | 1.73 | 0.10 |
(一)单项选择题
1.可用来进行多元线性回归方程的配合适度检验是:
A.检验 .检验 .检验 . Ridit检验
2.在多元回归中,若对某个自变量的值都增加一个常数,则相应的偏回归系数:
A.不变 .增加相同的常数 .减少相同的常数 .增加但数值不定
3.在多元回归中,若对某个自变量的值都乘以一个相同的常数k,则:
A.该偏回归系数不变
B.该偏回归系数变为原来的1/k倍
C.所有偏回归系数均发生改变
D.该偏回归系数改变,但数值不定
4.作多元回归分析时,若降低进入的界值,则进入方程的变量一般会:
A.增多 .减少 .不变 .可增多也可减少
(二) 名词解释
1.多元线性回归 偏回归系数 复相关系数 确定系数
5.比数 比数比
(三) 简答题
logistic回归模型中,偏回归系数的解释意义是什么?
(四) 计算题
某学者研究在某种营养缺乏状态下儿童的体重(,kg)与身高(,cm)、年龄(,岁)的关系获得了12名观察对象的观测资料,计算得到如下基本数据:
,,,,,,,,。
(1)请写出求解二元线性回归方程的正规方程组。
(2)设方程组的解为,,,请写出回归方程。
(3)完成下列方差分析表。
表11-3 12名儿童体重与身高、年龄回归分析方差分析表
变异来源
残差
总和
(一) 单项选择题
1. . . . A
(二) 名词解释
1.用回归方程定量地刻画一个应变量与多个自变量间的线性依存关系,称为多元线性回归(multiple linear regression),简称多元回归(multiple regression)。
2.多元线性回归的基本形式为: ,,…, 称为偏回归系数(partial regression coefficient),表示在除以外的自变量固定条件下,每改变一个单位后的平均改变量。
3.复相关系数(coefficient of multiple correlation), 的大小表示所有自变量与应变量之间线性关系的密切程度。
4.确定系数(coefficient of determination)简记为,表示回归平方和占总离均差平方和的比例,即。用可定量评价在的总变异中,由变量组建立的线性回归方程所能解释的比例。
5.logistic回归模型为:
同时可以写成:
第个观察对象的发病概率比数(odds)为,即同一暴露水平下,阳性概率与阴性概率之比值称为比数(odds)。
6. logistic回归模型中,两个观察对象的发病概率比数之比值称为比数比(odds ratio)。其大小反映了不同暴露水平下,个体发病的相对危险程度。
(三)简答题
答:的流行病学意义是在其它自变量固定不变的情况下,自变量的暴露水平每改变一个测量单位时所引起的比数比的自然对数改变量。或者说,在其他自变量固定不变的情况下,当自变量的水平每增加一个测量单位时所引起的比数比为增加前的倍。
(四) 计算题
1.求解二元线性回归方程的正规方程组为:
2.当方程组的解为,,,回归方程为:
3.列方差分析表。
表11-4 12名儿童体重与身高、年龄回归分析方差分析表
变异来源
残差 9 41.57 4.62
总和 11 192.92
