1.随机抽样:在总体中每个个体具有相同的机会被抽到
2.同质(homogeneity)是针对被研究指标来讲,其影响因素相同。简单地理解同质就是指对研
究指标影响较大的,可以控制的主要因素应尽可能相同。如研究方法相同,观察时间相等,以
及民族、地区、年龄、性别等客观条件一致。
同质基础上的个体差异称为变异
例调查20__年西安市7岁男童身高和体重
同质:20__年、西安市、7岁男童
变异:身高和体重各不相同
例研究某降压药的疗效
同质:高血压患者、用某药治疗
变异:疗效各不相同
3.产生抽样误差的根本原因是生物个体间存在的变异性。
4.随机事件的特征:①随机性;②规律性:每次发生的可能性的大小是确定的。
概率:随机事件发生的可能性大小
样本的实际发生率称为频率
5.频率与概率间的关系:1.样本频率总是围绕概率上下波动2.样本含量n越大,波动幅度越
小,频率越接近概率。当试验重复很多次时P(A)=m/n。
6.三类资料间区别1·等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序
排列。2·等级资料与计量资料不同:每个观察单位未确切定量,故亦称为半计量资料。3·计
数资料与计量资料不同:变量值是定性的,没有单位,表示为相互的类别。定量的,有单
位的,表示为数值的大小
7.频数分布的两个特征:集中趋势与离散趋势
集中趋势指标包括:算数均数(均数),几何均数,中位数和百分位数
均数最适用于对称分布资料,尤其是正态分布资料
几何均数常用于呈倍数关系的等比资料或对数正态分布(正偏态)资料
各种分布类型的资料特别适合大样本偏态分布资料或者一端或两端无确切数值的资料。
8.频数分布的类型:
对称分布与偏态分布(集中位置偏向小的一侧叫正偏态,反之叫负偏态)
9.频数表的主要用途:
1.揭示分布类型
2.发现特大值和特小值
3.计算集中趋势指标与离散趋势指标
10.几何均数应用的注意事项:
1)几何均数常用于呈倍数关系的等比资料或对数正态分布(正偏态)资料;
2)观察值中不能有0;
3)观察值中不能同时有正值和负值;
4)同一组资料求得的几何均数小于均数。
11.构成比与率的区别
构成比1。各部分可直接相加2。各部分之和等于100%。3。某部分变化,其它部分随
之变化。4。是说明比重和分布的,反映事物内部各个部分之间的比例关系。
率各率不可直接相加。总率不一定等于各率之和。某率的变化,不影响其它各率。表示
某现象发生的频率和强度
12均数、中位数、众数三者关系
正态分布时:均数=中位数=众数
正偏态分布时:均数>中位数>众数
负偏态分布时:均数<中位数<众数
同一组资料求得的几何均数小于均数
13.标准差的应用:
SSCV100%1)表示变量分布的离散程度。①S②③
2)结合均数计算变异系数。
3)结合样本含量计算标准误。④Sn1.96S
4)结合均数描述正态分布特征。
.14.描述定量资料的分布的两个特征(统计指标)
描述集中趋势、离散趋势配套使用:正态分布:均数、标准差;
偏态分布:中位数、四分位半间距
统计图一般由标题、标目、刻度、图域、图例组成
16.记住各种图的应用条件:
指一段时间内的平均概率。多用于大人群、长时间随访的资料。强度是单位
时间段内某现象发生的频率。
18.构成比是用以说明事物内部某种构成所占比重或分布,并不说明某现象发生的频率或强
度,在实际工作中经常会出现将构成比指标按率的概念去解释的错误。
19.阅读课本P30~P38描述人口学特征的常用指标,以及率的标准化部分
20.常用疾病统计的指标:1.发病率2.患病率3.病死率4.治愈率
21.发病率与患病率区别
发病率(强度型)表示在观察期内,可能发生某种疾病的一定人群中新发生该病的频率。新
发生某种疾病,以第一次就诊为准。由于该病未愈继续就诊者为旧病例,不再算作新病例。
患病率(频率型)表示在某时点检查时可能发生某病的一定人群中患有某病的频率。其中某病
病例数包括新病例和旧病例,凡患该病的一律统计在内。
22.死亡统计指标a死亡率(deathrate)表示某地每1000人中的死亡人数
b年龄别死亡率(aecificdeathrate)表示某地某年龄(组)每1000人囗中的死亡数
c.死因别死亡率(causespecificdeathrate)表示某年每10万人中因某种原因(某病)死亡人数
23.死亡率与病死率的区别
死亡率与病死率的分子是一样的,均表示因某病死亡的人数,但死亡率的分母是总人年数,侧
重反映死亡发生的强度,或单位时间内死亡的概率;病死率的分母是患某病的人数,反映疾病
死亡的概率。
23.正态分布三个特点:(1)集中性;(2)对称性;(3)均匀变动性。
24.μ±1.96σ占面积的95%(P=0.95)μ±1.96σ占面积的99%(P=0.99)
25.正态分布图形特点:(1)钟型(2)中间高、两头低、左右对称(3)最高处对应于_轴的值就是
均数(4)曲线下面积为1(5)标准差决定曲线的形状
26.二项分布的图形特征:当π=0.5时分布对称,近似对称分布;当π≠0.5时,分布呈偏
态,特别是n较小时,π偏离0.5越远,分布的对称性越差,但只要不接近1和0时,随着n的
增大,分布逐渐逼近正态。不管π如何,当n相当大时,只要π不接近1和0时,特别是当n
π或n都大于5时,二项分布B(_;n,π)近似正态分布N(nπ,nπ)。
XXX分布图形形状完全取决于λ的大小。当λ=10时,图形基本对称,随着λ(λ≥20)
增大,图形渐近于正态分布
Poisson分布的的总体均数与总体方差相等,均为λ
Poisson分布的观察结果有可加性。即对于服
从Poisson分布的m个互相的随机变量_1,_2…_M,它们之和也服从Poisson分布,其均
数为这m个随机变量的均数之和。
28.若标准差服从正态分布则标准误服从正态分布
若标准差不服从正态分布n大:则标准误近似服从正态分布n小:则标准误
为非正态分布
29.标准差与标准误的区别与联系:1.标准差:描述个体值间的变异(抽样误差),标准差较小,
表示观察值围绕均数的波动较小,说明样本均数的代表性就越好。标准误:描述样本均数的抽
样误差,标准误较小,表示样本均数与总体均数较接近。说明样本均数的可靠性。
2.标准差:表示变量值离散程度的大小,结合均数估计参考值范围。
标准误:表示抽样误差的大小,估计总体均数的可信区间。
3.标准差:随样本含量的增多,逐渐趋于稳定
标准误:随样本含量的增多逐渐减小。
4.标准差与标准误都是变异指标,说明个体值之间差异是用标准差,说明样本均数之间
差异时用标准误。当样本含量不变时,标准差越大,标准误越大。
30.t分布曲线是一簇曲线,而不是一条曲线曲线下面积为1
31.统计推断包括参数估计和假设检验参数估计包括点估计和区间估计,是用样本指标(统
计量)估计总体指标(参数)。
33.95%的可信区间的理解:所要估计的总体参数有95%的可能在我们所估计的可信区间内。
34.置信区间的两个要素:
35.均数置信区间与参考值范围的区别
95%个体值的估计范围。用来判断观察对象的某项
指标是否正常。若总体为正态分布,常按_±1.96S计算。
95%的可信区间是指按95%的置信度估计的总体参数的所在范围。用来估计总体均数若为
大样本,按_±计算。计算上:置信区间用标准误,参考值范围用标准差。
36.在假设检验中,下结论时,对H0只能说拒绝或不拒绝;对H1只能说接受H1。
37.t检验的应用条件:①正态分布②方差齐性③样本性应用于样本均数与总体均数比较;配对计量资料比较;两样本均数比较
38.假设检验与区间估计的关系:区间估计与假设检验是统计推断的两种方法。可信区间用于说明量的大小即推断总体均数的范围,假设检验用于推断质的不同即判断两总体均数是否不同。每一种区间估计都可以对应一种假设检验方法。它们之间既相互联系,又有区别。
39.假设检验的两类错误:拒绝了实际上成立的H0,这类“弃真”的错误称为第Ⅰ类错误。其概率大小用α表示,α可以取单尾亦可以取双尾。
接受了实际上不成立的H0,这类“取伪”的错误称为第Ⅱ类错误。其
概率大小用β表示,β只取单尾
40.对于卡方检验:(1)任一格的1≤T<5,且n≥40时,需计算校正值。
44试验研究的目的:控制误差
45.对照的形式包括:空白对照、安慰剂对照、实验对照、自身对照、标准对照、相互对照、
历史对照。
46.多个均数比较用t检验将增大Ι类误差,t检验可以判断两组数据平均数间的差异显著性,而方差分析既可以判断两组又可以判断多组数据平均数之间的差异显著性。
47.方差分析的应用条件
48.方差分析的主要用途①进行两个或两个以上样本均数的比较;②可以同时分析一个、两个或多个因素对试验结果的作用和影响;③分析多个因素的作用及多个因素之间的交互作用;④进行两个或多个样本的方差齐性检验等。
49.影响假设检验时样本含量估计的因素有四个(一)检验水准:α(二)检验效能/p>
(三)总体变异度:σ或π(四)容许误差:δ=或δ=
50方差分析前提条件与两均数比较的t检验的应用条件相同。
当组数为2时,方差分析与两均数比较的t检验是等价的,对同一资料,有tF
51.连续型资料两组样本均数差异的假设检验方法:★小样本用t检验,条件是变量服从正态分布和方差齐。★大样本用Z检验。★当总体分布不明确,或等级资料,用非参数检验
52.非参数检验的特点:1.主要优点是不受总体分布的,适用范围广。
2.犯第二类错误的概率β比参数检验大。
3.对于适合参数统计检验条件的资料或经变量变换后适合于参数统计检验,应最好用参数检验。当资料
不具备用参数检验的条件时,非参数检验是很有效的分析方法。
53.相关系数的解释:当r=1,说明_与Y完全正相关;当0 当r在0.3以下,表示相关关系很弱,也可能时由于偶然性因素所致,通常将其视作没有线性相关关系;在0.3~0.5之间,属低相关;在0.5~0.8之间,属中度相关;在0.8以上,属高度相关 54.线性回归模型的前提条件是:线性、、正态、等方差。