医学统计学办法
第一节 根本概念和根本步调(异常重要)
一.统计工作的根本步调
设计(最症结.决议成败).汇集材料.整顿材料.剖析材料.
总体:依据研讨目标决议的同质研讨对象的全部,确实地说,是性质雷同的所有不雅察单位某一变量值的聚集.总体的指标为参数.
现实工作中,经常是从总体中随机抽取必定命量的个别,作为样本,用样本信息来揣摸总体特点.样本的指标为统计量.
因为总体中消失个别变异,抽样研讨中所抽取的样本,只包含总体中一部分个别,这种由抽样引起的差别称为抽样误差.抽样误差愈小,用样本揣摸总体的精确度愈高;反之,其精确度愈低.
小概率事宜.
二.变量的分类
变量:不雅察单位的特点,分数值变量和分类变量.
第二节 数值变量数据的统计描写(重要考点)
一.描写计量材料的分散趋向的指标有
1.均数 均数是算术均数的简称,实用于正态或近似正态散布.
2.几何均数 实用于等比材料,尤其是对数正态散布的计量材料.对数正态散布即原始数据呈偏态散布,经对数变换后(用原始数据的对数值lgX代替X)屈服正态散布,不雅察值不克不及为0,同时有正和负.
3.中位数 一组按大小次序分列的不雅察值中位次居中的数值.可用于描写任何散布,特殊是偏态散布材料的分散地位,以及散布不明或散布末尾无肯定命据材料的中间地位.不克不及求均数和几何均数,但可求中位数.百分位数是个界值,将全部不雅察值分为两部分,有X%比小,剩下的比大,可用于盘算正常值规模.
二.描写计量材料的离散趋向的指标
1.全距和四分位数间距.
2.方差和尺度差 最为经常运用,适于正态散布,既斟酌了离均差(不雅察值和总体均数之差),又斟酌了不雅察值个数,方差使本来的单位变成了平方,所以开方为尺度差.均为数值越小,不雅察值的变异度越小.
3.变异系数 多组间单位不合或均数相差较大的情形.变异系数盘算公式为:CV=s/×100%,公式中s为样本尺度差,为样本均数.
三.尺度差的运用
暗示不雅察值的变异程度(或离散程度).
在两组(或几组)材料均数邻近.器量单位雷同的前提下,尺度差大,暗示不雅察值的变异度大,即各不雅察值离均数较远,均数的代表性较差;反之,暗示各不雅察值多分散在均数四周,均数的代表性较好.(常考!)
四.医学参考值的盘算办法,单双侧问题,医学为95%
医学参考值是斧正常人体或动物体的各类心理常数,因为消失变异,各类数据不但因人而异,并且统一小我还会随机体表里情形的转变而转变,因而须要肯定其摇动的规模,即正常值规模.
医学参考值的盘算公式:①正态散布材料95%医学参考值:±1.96s(双侧);-1.5s(单侧),s为尺度差.②百分位数法P和P(双侧);P5或P95(单侧).
第三节 数值变量数据的统计揣摸(重要考点)
一.尺度误,尺度误与尺度差和样本含量的关系
尺度差和尺度误的差别.
样本尺度误等于样本尺度差除以根号下样本含量.尺度误与尺度差成正比;与样本含量的平方根成反比.是以.为削减抽样误差,应尽可能包管足够大的样本含量.
样本尺度差与样本尺度误是既有接洽又有区此外两个统计量,二者的接洽是公式:二者的差别在于:样本尺度差是反应样本中各不雅测值X1,X2,……,Xn变异程度大小的一个指标,它的大小说清楚明了对该样本代表性的强弱.样本尺度误是样本平均数1,2,……的尺度差,它是抽样误差的估量值,其大小说清楚明了样本间变异程度的大小及精确性的高下.(控制!)
二.t散布和尺度正态u散布关系
均以0为中间阁下两侧完整对称的散布,只是t散布曲线顶端较u散布低,两头翘.(v逐渐增大,t散布逐渐逼近u散布).
正态散布的特色:①以均数为中间阁下两侧完整对称散布;②两个参数,均数u(地位参数)和s(变异参数);③对称均数的两正面积相等.
三.总体均数的估量
样本统计量推算总体均数有两个重要方面:区间估量和假设磨练.样本均数估量总体均数称点估量.
总体均数区间估量(可托区间)的概念:按必定的可托度估量未知总体均数地点规模.其统计上习习用95%(或99%)可托区间暗示总体均数μ有95%(或99%)的可能在某一规模.可托区间的两个要素,一为精确度,反应在可托度1-α的大小,即区间包含总体均数的概率大小,当然愈接近1愈好;二是精度,反应在区间的长度,当然长度愈小愈好.在样本例数肯定的情形下,二者是抵触的,须要统筹.
总体均数可托区间的盘算办法:
1.当n小按t散布的道理用式盘算可托区间为:±tα/2,vS
2.当n足够大 因n足够大时,t散布逼近μ散布,按正态散布道理.用式估量可托区间为:±μα/2S
可托区间与医学参考值规模的差别:二者的意义和算法不合.
四.假设磨练的步调
1.树立假设:H0(无效,两样本代表的总体均数雷同),H1(备择,两样本来自不合总体),当谢绝H0就接收H1,不谢绝就不接收H1.
2.肯定明显性程度:区分精确率和小概率事宜的尺度,平日取α=0.05.
3.盘算统计量:依据材料类型和剖析目标选择恰当的公式盘算.
4.肯定概率P值:将盘算得到的t值或u值查界值表得到P值和α值比较.
5.做出揣摸结论.
|t|值.P值与统计结论
α | |t|值 | P值 | 统计结论 |
不谢绝H0,不同无统计学意义 | |||
≥t0.05(v) | ≤ | 谢绝H0,接收H1,不同有统计学意义 | |
≥t0.01(v) | ≤ | 谢绝H0,接收H1,不同有高度统计学意义 |
1.样本均数与总体均数比较 u磨练和t磨练用于样本均数与总体均数的比较.理论上请求样本来自正态散布总体现实中,只要样本例数n较大,或n小但总体尺度差σ已知,就选用u磨练.n较小且σ未知时,用于t磨练.两样本均数比较时还请求两总体方差等.
以算得的统计量t,按表所示关系作断定.
2.配对材料的比较 在医学研讨中,经常运用配对设计.配对设计重要有四种情形:①统一受试对象处理前后的数据;②统一受试对象两个部位的数据;③统一样品用两种办法(仪器等)磨练的成果;④配对的两个受试对象分离接收两种处理后的数据.情形①的目标是揣摸其处理有无感化;情形②.③.④的目标是揣摸两种处理(办法等)的成果有无不同.
v=对子数-1;如处理前后或两法无不同,则其差数d的总体均数应为0,可看作样本均数和总体均数0的比较.为差数的均数;为差数均数的尺度误,Sd为差数的尺度差;n为对子数.因盘算的统计量是t,按表所示关系作断定.
3.完整随机设计的两样本均数的比较 亦称成组比较.目标是揣摸两样本各自代表的总体均数μ1与μ2是否相等.依据样本含量n的大小,分u磨练与t磨练.
t磨练用于两样本含量n1.n2较小时,且请求两总体方差相等,即方差齐.若被磨练的两样本方差相差明显则需用t′磨练.
u磨练:两样本量足够大,n>50.
=
v=(n1-1)+(n2-1)=n1+n2-2
式中,为两样本均数之差的尺度误,Sc2为归并估量方差(combined estimate variance).算得的统计量为t,按表所示关系做出断定.
4.Ⅰ型错误和Ⅱ型错误 弃真,谢绝精确的H0为Ⅰ型错误α暗示,若明显性程度α定为0.05,则犯Ⅰ型错误的概率0.05;接收错误的H0为Ⅱ型错误,概率用β暗示,β值的大小很难确实估量.当样本含量一准时,两者反比,增大n,当α一准时,可削减β.1-β称为磨练效能或掌控度,其统计意义是若两总体确有不同,按α水准能检出其差此外才能.
客不雅现实 谢绝H0 不谢绝H0
H0成立 Ⅰ型错误(α) 揣摸精确1-α
H0不成立 揣摸精确(1-β) Ⅱ型错误(β)
5.假设磨练留意事项 包管组间可比性;依据研讨目标.材料类型和设计类型选用恰当的磨练办法,熟习各类磨练办法的运用前提;“明显与否”是统计学术语,为“有无统计学意义”,不克不及懂得为“不同是不是大”;结论不克不及绝对化.
第四节 分类变量材料的统计描写(一般考点)
相对数是两个有接洽关系事物数据之比.经常运用的相对数指标有构成比.率.相比较等.
一.构成比
暗示事物内部各个构成部分所占的比重,平日以100为例基数,故又称为百分比.其公式如下:
构成比=×100%
该式可用符号表达如下:
构成比=×100%
构成比有两个特色:
(1)各构成部分的相对数之和为100%.
(2)某一部分所占比重增大,其他部分会响应地削减.
二.率
用以解释某种现象产生的频率或强度,故又称频率指标,以100,1000,10000或100000为比例基数(K)均可,原则上以成果至少保存一位整数为宜,其盘算公式为:
率和构成比不合之处:率的大小仅取决于某种现象的产生数和可能产生该现象的总数,不受其他指标的影响,并且各率之和一般不为1.
率=×K
该式亦可用符号表达如下
阳性率=×K(若算阴性率则分子为A(-))
式中A(+)为阳性人数,A(-)为阴性人数.
三.相比较
暗示有关事物指标之比较,常以百分数和倍数暗示,其公式为:
相比较:甲指标/乙指标(或×100%)
或用符号暗示为:A/B×K
四.留意事项
①构成比和率的不合,不克不及以比代率;②盘算相对数时,不雅察例数不宜过小;③率的比较留意可比性,特殊是混淆身分的问题,有的话,可用尺度化法和分层剖析清除;④不雅察单位不合的几个率的平均率不等于几个率的算术均数;⑤样本率或构成比的比较应做假设磨练.
第五节 分类变量材料的统计揣摸(异常重要)
一.率的抽样误差
用抽样办法进行研讨时,必定消失抽样误差.率的抽样误差大小可用率的尺度误来暗示,盘算公式如下:
σp=
式中:σp为率的尺度误,π为总体阳性率,n为样本含量.因为现实工作中很难知道总体阳性率π,故一般采取样本率P来代替,而上式就变成
Sp=
二.总体率的可托区间
因为样本率与总体率之间消失着抽样误差,所以也需依据样本率来推算总体率地点的规模,依据样本含量n和样本率P的大小不合,分离采取下列两种办法:
(一)正态近似法(常考!)
当样本含量n足够大,且样本率P和(1-P)均不太小,如nP或n(1-P)均≥5时,样本率的散布近似正态散布.则总体率的可托区间可由下列公式估量:
总体率(π)的95%可托区间:p±p
总体率(π)的99%可托区间:p±p
(二)查表法 当样本含量n较小,如n≤50,特殊是P接近0或1时,则按二项散布道理肯定总体率的可托区间,其盘算较繁,读者可依据样本含量n和阳性数x参照专用统计学介绍的二项散布中95%可托限表.
三.u磨练(异常重要!)
当样本含量n足够大,且样本率P和(1-P)均不太小,如nP或n(1-P)均≥5时,样本率的散布近似正态散布.样本率和总体率之间.两个样本率之间差别的断定可用u磨练.
1.样本率和总体率的比较公式 u=|P-π|/σP=|P-π|/;
2.两样本率比较公式 u=|P1-P2|/Sp1-P2=|P1-P2|/
也可用χ2磨练,两者相等.
四.χ2磨练(异常重要!)
可用于两个及两个以上率或构成比的比较;两分类变量相干关系剖析.其数据构成,必定是互相对峙的两组数据,四格表材料自由度v永久=1.
四格表χ2磨练各类公式实用前提,n>40且每个格子T>5,可用根本公式或专用公式,不必校订.
根本公式:χ2=∑(A-T)2/T
专用公式:χ2=∑(ad-bc)2n/(a+b)(c+d)(a+c)(b+d)
只要有一个格子T在1~5之间,需校订.校订公式:
根本公式:χ2=∑(|A-T|-0.5)2/T
专用公式:χ2=∑(|ad-bc|-n/2)2n/(a+b)(c+d)(a+c)(b+d)
n<40或T<1,用确实概率法.
五.行×列表χ2磨练
当行数或列数超出2时,称为行×列表.行×列表χ2磨练是对多个样本率(或构成比)的磨练.
实用前提:一般以为行×列表中不宜有1/5以上格子的理论数小于5,或有小于1的理论数.
1.当理论数太小可采纳下列办法处理 ①增长样本含量以增大理论数;②删去上述理论数太小的行和列;③将太小理论数地点组与性质邻近的组归并,使从新盘算的理论数增大.因为后两法可能会损掉信息,伤害样本的随机性,不合的归并方法有可能影响揣摸结论,故不宜作通例办法.别的,不克不及把不合性质的现实数归并,如研讨血型时,不克不及把不合的血型材料归并.
2.如磨练成果谢绝磨练假设,只能以为各总体率或总体构成比之间总的来说有不同,但不克不及解释它们彼此之间都有不同,或某两者间有不同.
3.关于单向有序行列表的统计处理 在比较遍地理组的效应有无不同时,宜用秩和磨练法,如作χ2磨练只解释遍地理组的效应在构成比上有无差别.
六.配对计数材料的χ2磨练
统一样品用两种办法处理,不雅察阳性和阴性个数.断定两种处理办法是否雷同.当b+c>40时,χ2=(b-c)2/b+c;b+c<40时,校订公式:χ2=(|b-c|-1)2/b+c
第六节 直线相干和回归(一般考点)
一.直线相干剖析的用处.相干系数及其意义
相干剖析是研讨事物或现象之间有无关系.关系的偏向和亲密程度.
相干系数:是定量暗示两个变量(X,Y)之间线性关系的偏向和亲密程度的指标,用r暗示,r=lxy/,其值在-1至+1间,r没有单位.r呈正值,两变量间呈正相干,即两者的变更趋向是同向的,r=1时为完整正相干;如r呈负值,两变量呈负相干,即两者的变更趋向是反向的,r=-1时为完整负相干.r的绝对值越接近1,两变量间线性相干越亲密;越接近于0,相干越不亲密.当r=0时,解释X和Y两个变量之间无直线关系.
二.直线回归剖析的感化.回归系数及其意义
直线回归剖析的义务在于找出两个变量有依存关系的直线方程,以肯定一条最接近于各实测点的直线,使各实测点与该线的纵向距离的平方和为最小.这个方程称为直线回归方程,据此方程描写的直线就是回归直线.
直线同归方程式的一般表达式
Y=a+bX
式中a为回归直线在Y轴上的截距,即a>0暗示直线与Y轴的交点在原点上方,<0在原点下方,a=0过原点.
b为样本回归系数,即回归直线的斜率,暗示当X变动一个单位时,Y平均变动b个单位.
b>0:暗示Y随X增大而增大
b<0:暗示Y随X增大而削减
b=0:暗示Y不随X变更而变更
第七节 统计表和统计图(重要考点)
一.统计表
原则:构造简略.层次分明.内容安插合理.重点凸起.数据精确.
1.标题 简洁表达表的中间内容,地位在表的上方.
2.标目 有横标和纵标目,横标目平日位于表内左侧;纵标目列在表内上方,其表达成果与主辞呼应.
3.线条 力图简洁,一般为三线表.
4.用阿拉伯数暗示,如很多据或暂缺材料,也可用“-”或“…”来暗示.
5.备注 一般不列入表内,解释在表下.
内容分列:一般按事物产生频率大小次序来分列,比较光鲜,重点凸起.
二.统计图
1.线图(line diagram)(常考!)
材料性质:实用于持续变量材料.
剖析目标:用线段的起落表达某事物的动态(差值)变更.
2.半对数线图(semilogarithmic line graph)
材料性质:实用于持续变量材料.
剖析目标:用线段的起落表达事物的成长速度变更趋向.
3.直方图(histogram)
材料性质:实用于数值变量,持续性材料的频数表材料.
剖析目标:直方图是以直方面积表达各组段的频数或频率.
4.直条图(bar chart)
材料性质:实用于彼此自力的材料.
剖析目标:直条图是用等宽直条的和长短来暗示各统计量的大小,进行比较.
5.百分条图(percentchart)
材料性质:构成比.
剖析目标:用长条各段的长度(面积)表达内部构成比.
6.圆形图(circulargraph)(常考!)
材料性质:构成比.
剖析目标:用圆的扇形面积表达内部构成比.
7.散点图(scatterdiagram)
材料性质:双变量材料.
剖析目标:用点的密集度和趋向表达两变量间的相干关系.
8.统计地图(statistical map)
材料性质:地区性材料.
剖析目标:用不合纹线或色彩代表指标高下,解释地域散布.