
逻辑回归分析
什么是逻辑回归?
Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalized linear model)。
这一家族中的模型形式基本上都差不多,不同的就是因变量不同。
如果是连续的,就是多重线性回归;
如果是二项分布,就是Logistic回归;
如果是Poisson分布,就是Poisson回归;
如果是负二项分布,就是负二项回归。
Logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最常用的就是二分类的Logistic回归。
Logistic回归的主要用途:
寻找危险因素:寻找某一疾病的危险因素等;
预测:根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大;
判别:实际上跟预测有些类似,也是根据模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。
Logistic回归主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是”或“否”,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。
Logistic Regression的具体过程,包括:选取预测函数,求解Cost函数和J(θ),梯度下降法求J(θ)的最小值,以及递归下降过程的向量化(vectorization)。
基本原理
Logistic Regression和Linear Regression的原理是相似的,按照我自己的理解,可以简单的描述为这样的过程:
(1)找一个合适的预测函数(Andrew Ng的公开课中称为hypothesis(假设)),一般表示为h函数,该函数就是我们需要找的分类函数,它用来预测输入数据的判断结果。这个过程时非常关键的,需要对数据有一定的了解或分析,知道或者猜测预测函数的“大概”形式,比如是线性函数还是非线性函数。
(2)构造一个Cost函数(损失函数),该函数表示预测的输出(h)与训练数据类别(y)之间的偏差,可以是二者之间的差(h-y)或者是其他的形式。综合考虑所有训练数据的“损失”,将Cost求和或者求平均,记为J(θ)函数,表示所有训练数据预测值与实际类别的偏差。
(3)显然,J(θ)函数的值越小表示预测函数越准确(即h函数越准确),所以这一步需要做的是找到J(θ)函数的最小值。找函数的最小值有不同的方法,Logistic Regression实现时有的是梯度下降法(Gradient Descent)。
具体过程
(1)构造预测函数
Logistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别),所以利用了Logistic函数(或称为Sigmoid函数),函数形式为:
Sigmoid 函数是一个取值在0和1之间的S型曲线,如下图所示:
下面左图是一个线性的决策边界,右图是非线性的决策边界。
对于线性边界的情况,边界形式如下:
构造预测函数为:
函数的值有特殊的含义,它表示结果取1的概率,因此对于输入x分类结果为类别1和类别0的概率分别为:
(2)构造Cost函数
Cost函数和J函数如下,它们是基于最大似然估计推导得到的。
(3)梯度下降法求J(θ)的最小值
求J(θ)的最小值可以使用梯度下降法,根据梯度下降法可得θ的更新过程:
事实上,采用梯度上升法和梯度下降法是完全一样的,这也是《机器学习实战》中采用梯度上升法的原因。
(4)梯度下降过程向量化
《机器学习实战》中给出的实现代码确是实现了vectorization的,图所示代码的32行中weights(也就是θ)的更新只用了一行代码,直接通过矩阵或者向量计算更新,没有用for循环,说明确实实现了vectorization。
约定训练数据的矩阵形式如下,x的每一行为一条训练样本,而每一列为不同的特称取值:
约定待求的参数θ的矩阵形式为:
θ更新过程可以改为:
综上所述,Vectorization后θ更新的步骤如下:
(1)求;
(2)求;
(3)求 。
图中是《机器学习实战》中给出的部分实现代码。
sigmoid函数就是前文中的g(z)函数,参数inX可以是向量,因为程序中使用了Python的numpy。
gradAscent函数是梯度上升的实现函数,参数dataMatin和classLabels为训练数据,23和24行对训练数据做了处理,转换成numpy的矩阵类型,同时将横向量的classlabels转换成列向量labelMat,此时的dataMatrix和labelMat就是(18)式中的x和y。alpha为学习步长,maxCycles为迭代次数。weights为n维(等于x的列数)列向量,就是(19)式中的θ。
29行的for循环将更新θ的过程迭代maxCycles次,每循环一次更新一次。对比3.4节最后总结的向量化的θ更新步骤,30行相当于求了A=x.θ和g(A),31行相当于求了E=g(A)-y,32行相当于求θ:=θ-α.x'.E。所以这三行代码实际上与向量化的θ更新步骤是完全一致的。
决策树
从信息论知识中我们直到,期望信息越小,信息增益越大,从而纯度越高。所以ID3算法的核心思想就是以信息增益度量属性选择,选择后信息增益最大的属性进行。
时间序列分析
时间序列分析是根据系统观测得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法。它一般采用曲线拟合和参数估计方法(如非线性最小二乘法)进行。时间序列分析常用在国民经济宏观控制、区域综合发展规划、企业经营管理、市场潜量预测、气象预报、水文预报、地震前兆预报、农作物病虫灾害预报、环境污染控制、生态平衡、天文学和海洋学等方面。
种类
(1)ARMA模型
ARMA模型的全称是自回归移动平均(auto regression moving average)模型,它是目前最常用的拟合平稳序列的模型,它又可细分为AR模型(auto regression model自回归模型)、MA模型(moving average model移动平均模型)和ARMA模型(auto regression moving average model自回归移动平均模型)三大类。
一般用ARMA模型拟合时间序列,预测该时间序列未来值。
条件
条件一:这个条件保证了模型的最高阶数。
条件二:这个条件实际上是要求随机干扰序列 为零均值白噪声序列。
条件三:这个条件说明当期的随机干扰与过去的序列值无关。
(2)ARIMA模型
ARIMA模型又称自回归求和移动平均模型(自回归积分滑动平均模型),当时间序列本身不是平稳的时候,如果它的增量,即的一次差分,稳定在零点附近,可以将看成是平稳序列。在实际的问题中,所遇到的多数非平稳序列可以通过一次或多次差分后成为平稳时间序列,则可以建立模型: ARIMA(p,d,q),称为差分自回归移动平均模型,AR是自回归, p为自回归项; MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。
所谓ARIMA模型,是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。
这说明任何非平稳序列只要通过适当阶数的差分运算实现差分后平稳,就可以对差分后序列进行ARIMA模型拟合了。
AR模型、MA模型、ARMA模型的区别
AR模型是建立当前值和历史值之间的联系,MA模型是计算AR部分的误差的累计,ARMA是两者的和。
GARCH模型概述
自从Engle(1982)提出ARCH模型分析时间序列的异方差性以后,波勒斯列夫T.Bollerslev(1986)又提出了GARCH模型,GARCH模型是一个专门针对金融数据所量体订做的回归模型,除去和普通回归模型相同的之处,GARCH对误差的方差进行了进一步的建模。特别适用于波动性的分析和预测,这样的分析对投资者的决策能起到非常重要的指导性作用,其意义很多时候超过了对数值本身的分析和预测。
LASSO回归分析
LASSO由1996年Robert Tibshirani首次提出,全称Least absolute shrinkage and selection operator(最小化的绝对收缩和选择算子)。该方法是一种压缩估计。它通过构造一个罚函数得到一个较为精炼的模型,使得它压缩一些系数,同时设定一些系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。
LASSO回归的特点是在拟合广义线性模型的同时进行变量筛选(Variable Selection)和复杂度调整(Regularization)。因此,不论目标因变量(dependent/response varaible)是连续的(continuous),还是二元或者多元离散的(discrete),都可以用LASSO回归建模然后预测。
这里的变量筛选是指不把所有的变量都放入模型中进行拟合,而是有选择的把变量放入模型从而得到更好的性能参数。复杂度调整是指通过一系列参数控制模型的复杂度,从而避免过度拟合(Overfitting)。
对于线性模型来说,复杂度与模型的变量数有直接关系,变量数越多,模型复杂度就越高。更多的变量在拟合时往往可以给出一个看似更好的模型,但是同时也面临过度拟合的危险。此时如果用全新的数据去验证模型(Validation),通常效果很差。一般来说,变量数大于数据点数量很多,或者某一个离散变量有太多独特值时,都有可能过度拟合。
高维模型,可以用来参数估计的同时做特征选择。
(1)相关分析和回归分析。
相关分析主要分析变量之间联系的密切程度;回归分析主要基于观测数据与建立变量之间适当的依赖关系。相关分析与回归分析均反映的是数据变量之间的有价值的关联或相关联系,因此两者又可统称为关联分析。
(2)时间序列分析。
时间序列分析与关联分析相似,其目的也是为了挖掘数据之间的内在联系,但不同之处在于时间序列分析侧重于数据在时间先后上的因果关系,这点与关联分析中的平行关系分析有所不同。
(3)分类与预测分析。
分类与预测用于提取描述重要数据类的模型,并运用该模型判断分类新的观测值或者预测未来的数据趋势。
(4)聚类分析。
聚类分析就是将数据对象按照一定的特征组成多个类或者簇,在同一个簇的对象之间有较高的相似度,而不同的簇之间差异则要大很多。在过程上看,聚类分析一定程度上是分类与预测的逆过程。
1)子集选择,这是传统的方法,包括逐步回归和最优子集法等,对可能的部分子集拟合线性模型,利用判别准则(如AIC,BIC,Cp,调整R2等)决定最优的模型。
2)收缩方法(shrinkage method),收缩方法又称为正则化(regularization)。主要是岭回归(ridge regression)和LASSO回归。通过对最小二乘估计加入罚约束,使某些系数的估计为0。(岭回归:消除共线性;模的平方处理;LASSO回归:压缩变量,起降维作用;模处理)。
(3)维数缩减,主成分回归(PCR)和偏最小二乘回归(PLS)的方法。把p个预测变量投影到m维空间(m
全概率公式与贝叶斯公式
全概率公式
贝叶斯公式
机器学习降维方法概括
维度,其目的是用来进行特征选择和特征提取,注意特征选择和特征提取这二者的不同之处:
特征选择:选择重要特征子集,删除其余特征。
特征提取:由原始特征形成较少的新特征。
降维的作用:
1.降低时间复杂度和空间复杂度
2.节省了提取不必要特征的开销
3.去掉数据集中夹杂的噪声项
4.较简单的模型在小数据集上有更强的鲁棒性
5.当数据能有较少的特征进行解释,我们可以更好的解释数据,使得我们可以提取知识。
6.实现数据可视化
特征降维方法包括:LASSO,主成分分析PCA(还有基于核方法的主成分分析),小波分析,线性判别式分析LDA,奇异值分解SVD,拉普拉斯特征映射,深度学习稀疏自编码SparseAutoEncoder,局部线性嵌入LLE,等距映射Isomap,因子分析,标度法(Multidimensional Scaling)(MDS)。
1. LASSO通过参数缩减达到降维的目的。
LASSO(Least absolute shrinkage and selection operator, Tibshirani(1996)) (最小化的绝对收缩和选择算子)
该方法是一种压缩估计,通过构造一个罚函数得到一个较为精炼的模型,使得压缩一些系数,同时设定一些系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。Lasso 的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于 0 的回归系数,得到可以解释的模型。
2. 主成分分析PCA
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。
设有m条n维数据。
1)将原始数据按列组成n行m列矩阵X
2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值
3)求出协方差矩阵C=\\frac{1}{m}XX^\\mathsf{T}
4)求出协方差矩阵的特征值及对应的特征向量
5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P
6)Y=PX即为降维到k维后的数据
3. 小波分析
小波分析有一些变换的操作降低其他干扰可以看做是降维。
4. 线性判别分析LDA
线性判别式分析(Linear Discriminant Analysis),简称为LDA。也称为Fisher线性判别(Fisher Linear Discriminant,FLD),是模式识别的经典算法,在1996年由Belhumeur引入模式识别和人工智能领域。
基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。
LDA与前面介绍过的PCA都是常用的降维技术。PCA主要是从特征的协方差角度,去找到比较好的投影方式。LDA更多的是考虑了标注,即希望投影后不同类别之间数据点的距离更大,同一类别的数据点更紧凑。
5. 拉普拉斯特征映射
拉普拉斯特征映射将处于流形上的数据,在尽量保留原数据间相似度的情况下,映射到低维下表示。
6. 深度学习SparseAutoEncoder
稀疏自编码SparseAutoEncoder就是用少于输入层神经元数量的隐含层神经元去学习表征输入层的特征,相当于把输入层的特征压缩了,所以是特征降维。
7. 矩阵奇异值分解SVD
在PCA算法中,用到了SVD,类似PCA,可以看成一类。
8. LLE局部线性嵌入
Locally linear embedding(LLE)是一种非线性降维算法,它能够使降维后的数据较好地保持原有流形结构。LLE可以说是流形学习方法最经典的工作之一。很多后续的流形学习、降维方法都与LLE有密切联系。
9. Isomap等距映射
Isomap是一种非迭代的全局优化算法,通过一种原本试用于欧式空间的算法MDS,达到降维的目的。
10.因子分析的基本思想:
根据相关性的大小把原始变量分组,使得同组内的变量相关性高,不同组的变量相关性低。
11. 标度法(Multidimensional Scaling)(MDS)
MDS是一种降维方法,它在降维时使得降维之后的两点间的欧氏距离尽量保持不变(用欧氏距离矩阵来表示高维向量的两两之间的相似度,寻找同样数量的映射维度的向量,使得映射维度下两两间距离约等于原高维下两两间距离,变为了优化问题)。
pearson相关系数和spearman相关系数
Pearson相关系数 是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。
spearman相关系数 用来描述两个变量之间的关联程度与方向。
因子分析和主成分分析的区别和联系
(1)因子分析把展示在我们面前的诸多变量看成由对每一个变量都有作用的,一些公共因子和一些仅对某一个变量有作用的特殊因子线性组合而成。因此,我们的目的就是要从数据中探查能对变量起解释作用的公共因子和特殊因子,以及公共因子和特殊因子组合系数。主成分分析则简单一些,它只是从空间生成的角度寻找能解释诸多变量变异绝大部分的几组彼此不相关的新变量(主成分)。
(2)因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各变量的线性组合。
(3)主成分分析中不需要有假设,因子分析则需要一些假设。因子分析的假设包括:各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。
(4)求解方法不同。
求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知),采用的方法只有主成分法。
求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。
(5)主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子。
(6)因子数量和主成分的数量不同。在因子分析中,因子个数需要分析者指定(SPSS根据一定的条件自动设定,只要是特征值大于1的因子进入分析),指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。
(7)和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到,所以这种区分不是绝对的。
(8)原理不同。
主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。
因子分析基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。就是要从数据中提取对变量起解释作用的少数公共因子(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系)
(9)解释重点不同。主成分分析:重点在于解释个变量的总方差;因子分析:则把重点放在解释各变量之间的协方差。
因子分析和对应分析的区别和联系
(1)在因子分析中,因子个数需要分析者指定(SPSS根据一定的条件自动设定,只要是特征值大于1的因子进入分析),指定的因子数量不同而结果不同。对应分析也类似,维数由研究者自定。
(2)因子分析,把重点放在解释各变量之间的协方差。对应分析则是揭示行变量类间与列变量类间的联系。
(3)因子分析需要假设,其包括:各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。而对应分析不能用于相关关系的假设检验。
(4)因子分析把展示在我们面前的诸多变量看成由对每一个变量都有作用的,一些公共因子和一些仅对某一个变量有作用的特殊因子线性组合而成。而对应分析的结果会受极端值的影响。
(5)对于对应分析,定性变量划分的类别越多,这种方法的优越性越明显。
(6)a.主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。
b.对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。另外,它还省去了因子选择和因子轴旋转等复杂的数算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。
朴素贝叶斯分类
整个朴素贝叶斯分类分为三个阶段:
第一阶段——准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。
第二阶段——分类器训练阶段,这个阶段的任务就是生成分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性和训练样本,输出是分类器。这一阶段是机械性阶段,根据前面讨论的公式可以由程序自动计算完成。
第三阶段——应用阶段。这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,由程序完成。
当特征属性充分多时,朴素贝叶斯分类对个别属性的抗干扰性。分类器的正确率指分类器正确分类的项目占所有被分类项目的比率。
通常使用回归测试来评估分类器的准确率,最简单的方法是用构造完成的分类器对训练数据进行分类,然后根据结果给出正确率评估。但这不是一个好方法,因为使用训练数据作为检测数据有可能因为过分拟合而导致结果过于乐观,所以一种更好的方法是在构造初期将训练数据一分为二,用一部分构造分类器,然后用另一部分检测分类器的准确率。
朴素贝叶斯分类和一般的贝叶斯分类的区别?
朴素贝叶斯(naive Bayes)法是是基于 贝叶斯定理 和 特征条件假设 的分类方法,对于给定的训练数据集,首先基于特征条件假设学习输入/输出的联合分布概率;然后基于此模型,对给定的输入x,再利用贝叶斯定理求出其后验概率最大的输出y。
生存分析
生存分析(Survival Analysis)是指根据试验或调查得到的数据对生物或人的生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度大小的方法,也称生存率分析或存活率分析。
生存分析主要用于对涉及一定时间发生和持续长度的时间数据的分析,目前在医学、社会科学、金融学、人口统计、保险等应用广泛。
生存函数——寿命表
研究两个事件间的时间分布如:雇用时长、白血病患者生存时间等
适用:大样本
生存函数——Kaplan-Meier分析
Kaplan-Meier分析,又称为极限估计、PL法或最大似然估计法。
适用:小样本
简明扼要地讲,生存分析的目的无外乎六个字:描述、比较、关系。
1.描述:是指对研究群体生存时间的分布情况进行描述、刻画。类似的,描述特定人群的身高状况时,需要采用均数和标准差来分别衡量数据分布的集中程度和离散程度,在做生存分析时,描述生存时间的分布情况也是十分有必要的和有意义的。但是生存时间的数据资料和身高、体重等常规数据资料不一样,因为含有“截尾”数据,所以就需要变换思路来描述这类数据,经典的也是被大家所接受的解决方法就是生存曲线了。而绘制生存曲线的方法有两种,即K-M法和寿命表法,分别对应不同的数据源。很多软件(如SAS、SPSS)都可以绘制生存曲线,这个过程还是比较简单的,我会在后面介绍如何使用SAS绘制生存曲线。
2.比较:是指比较不同组别之间生存分布的差异。大多数情况下,研究的兴趣点在于比较两组或者多组之间的差别,比如使用A药和B药时,病人的生存时间是否有差异,从而判断A药与B药哪个疗效好。你可以类比样本均数的比较,比如研究学校里面男生和女生的身高是否有差异时,通过抽样获得两组样本均数,然后根据假设检验(H0和H1)在统计学上进行检验,得出统计量(t、F、Z、卡方值之类的)和p值,最后做出统计推断和得出结论。没有学过统计理论的同学对这个检验的过程似懂非懂,不明白其中的道理,所以觉得难以理解,在这里举个不是特别恰当的例子:比如某美女正在纠结本周末是否去逛街,因为需要考虑气温、阳光、心情等等很多因素。我们假定只考虑气温吧,她心说,“如果气温低于5度就不去逛街”。那么无效假设H0就可以是:这周末气温低于5度;择备假设为H1:这周末气温不低于5度。这样就可以根据历史气温数据的分布情况,推算出本周末气温低于5度的概率,发现这种情况出现的可能性极低(p<0.05),所以她就得出了结论,本周末可以出去逛街。统计检验的道理就是这么一回事,即首先给出一个假设条件,然后在这个条件下通过计算推理来证明这个假设是合理的或者不合理的,从而做出理性决策。
3.关系:即研究生存时间与某些因素之间的关系。这些因素你可以称呼它们“协变量”、“预测变量”、“自变量”、“预测因子”,whatever,我暂且简单直白地称呼它们为”Xi”。怎样研究生存时间与Xi之间的关系呢?回归分析,或者叫拟合模型。涉及到模型拟合,这里有太多的内容需要深入学习和理解,如果对模型分析感兴趣,建议先学习一下线性代数和数理统计的理论知识。不管怎样,拟合模型的过程可以简单的看做“挑选模子-模拟数据-验证模子-解释结果”的过程。我个人觉得,最重要的两个环节是首尾两个环节,第一个环节是说要根据数据资料的类型选择合适的模型,比如生存时间资料就不适合一般线性回归模型,需要采用COX风险比例模型或者其他模型;第四个环节是解释结果,因为很多情况下“结果没意义”,导致研究人员纠结到死,死活不知道怎么解释与专业知识冲突或者不符合预期的统计结果,最后放出大招——篡改原始数据,得到想要的结果。如果P值都很好,那很有可能被怀疑造假。记得我老板的一句话是:一篇好的论文在于讨论部分。即使统计结果不是特别理想,那么讨论部分就可以看出文章作者的功底了。
