摘要
本文通过对题中附件1和2给出的数据进行分析讨论了关于艾滋病疗法的评价及疗效的预测问题,并在药价约束的规划条件下,求解一个联合用药成本的实例。主要解决如下三个问题:
1、通过分析题中附件1给出的数据,根据统计规律,我们将数据组中的缺失数据项及个别异常项删除,然后对余下的数据作处理并作回归分析,拟合得到各类回归方程,然后对各方程求导得到拐点,就得出各类患者的最佳停止治疗时刻分别为34周、35周和继续治疗。
2、通过对附件2中给出的数据进行分析,考虑到不同年龄阶段的病人具有不同身体机能的问题,因而将病人按疗法、年龄段进行分类,得到4类病人.同样考虑到同类病人具有个体差异的问题,建立方差分析模型。在方差分析模型基础上,进一步建立了同年龄阶段,不同疗法的评价模型,并将评价结果量化,得出疗法1效果相对较差,较好的一种疗法应该为疗法4,这与统计结果相吻合。然后为了能有效对较优的疗法预测继续治疗的效果,或者确定最佳治疗终止时间。再利用问题一的模型,求得CD4 浓度和时间关系的预测公式,最终确定对较优的疗法预测继续治疗的效果,或者确定最佳治疗终止时间。
3、结合问题2的评价模型,建立一个了费用与疗效之间的层次分析模型,通过把费用因素考虑进去,评价得出第4种疗法为最佳的疗法,第3种疗法次之,结果见正文。这说明费用因素对疗法的评价有较大的影响.结合问题2的预测模型,建立了受经济影响的预测模型,数值实验结果见正文(图11~13)。这说明费用因素对预测有较大的影响。
关键词:回归分析;双因素方差分析,层次分析;疗效评价
一 问题重述
(1)背景:艾滋病是当前人类社会最严重的瘟疫之一,从1981年发现以来的20多年间,它已经吞噬了近3000万人的生命。
艾滋病的医学全名为“获得性免疫缺损综合症”,英文简称AIDS,它是由艾滋病毒(医学全名为“人体免疫缺损病毒”, 英文简称HIV)引起的。这种病毒破坏人的免疫系统,使人体丧失抵抗各种疾病的能力,从而严重危害人的生命。人类免疫系统的CD4细胞在抵御HIV的入侵中起着重要作用,当CD4被HIV感染而裂解时,其数量会急剧减少,HIV将迅速增加,导致AIDS发作。
艾滋病治疗的目的,是尽量减少人体内HIV的数量,同时产生更多的CD4,至少要有效地降低CD4减少的速度,以提高人体免疫能力。
迄今为止人类还没有找到能根治AIDS的疗法,目前的一些AIDS疗法不仅对人体有副作用,而且成本也很高。许多国家和医疗组织都在积极试验、寻找更好的AIDS疗法。
基于这一考虑,本文对几种联合治疗方案进行了讨论,建立了其非线性数学模型。
(2)重述:现得到了美国艾滋病医疗试验机构ACTG公布的两组临床数据(详见附件1、2)。
要求完成以下问题:
问题1 利用附件1的数据,预测继续治疗的效果,或者确定最佳治疗终止时间(继续治疗指在测试终止后继续服药,如果认为继续服药效果不好,则可选择提前终止治疗)。
问题2 利用附件2的数据,评价4种疗法的优劣(仅以CD4为标准),并对较优的疗法预测继续治疗的效果,或者确定最佳治疗终止时间。
问题3 艾滋病药品的主要供给商对不发达国家提供的药品价格如下:600mg zidovudine 1.60美元,400mg didanosine 0.85美元,2.25 mg zalcitabine 1.85美元,400 mg nevirapine 1.20美元。如果病人需要考虑4种疗法的费用,对(2)中的评价和预测(或者提前终止)有什么改变。
二 问题分析
1、药理知识分析
(1).临床用药之后随时间的推移,药物作用有一动态变化的过程,大致分为起效、显效、持平、无效等几个阶段。
(2).按照CD4浓度变化,感染可以划分为前、中、后不同时期。
(3).临床用药具有个体差异性,即同样的药对不同的人,药效存在差异。
2、问题分析
对问题1,模型的目标是预测最佳治疗终止时间,所以关键问题是建立合理的评价标准,为此,我们将最佳治疗终止时间确定为CD4浓度上升到最大并开始下降拐点处。
对问题2,由于要比较四种方案的优劣,因此对数据进行统计,采取双因素方差分析方法进行方案的比较及曲线拟合的方法确定最佳治疗终止时间。
问题3则是在问题2的基础上增加了疗法费用这一约束条件,因此可以考虑用层次分析的方法来讨论。
三 基本假设及符号说明
1. 基本假设:
(1)附件所给数据有微量缺失现象存在,在不影响总体评判标准下,忽略所缺失的数据造成的影响;
(2)以CD4浓度为标准评价和预测治疗效果;
(3)假设CD4与HIV浓度相关,已知其中任意一方可描述另一方;
(4)假设被测试病人在服药期间,药物对机体带来的副作用对CD4细胞的浓度无影响;
(5)假设测试期间其它病症对CD4细胞浓度不产生影响;
(6)数据来源可靠,能正确反映客观事实。
2. 符号说明:
Y : 艾滋病患者体内CD4的浓度;
: 艾滋病患者体内CD4的浓度起始浓度CD40;
: 艾滋病患者体内HIV的浓度起始浓度HIV0;
: 艾滋病患者与的乘积*;
: 测试患者CD4的时刻(周);
: 测试患者CD4的时刻(周)的平方;
: 回归方程的系数;
四 模型建立与求解
问题一:
建立爱滋病患者CD4浓度随时间变化规律模型——确定最佳治疗终止时间。
1、数据处理
将附件1中数据进行处理,分析发现,在某些检测时刻没有CD4和HIV的数据记录,另外发现数据中有一组起始检测时间为-2,不符合常理,因此我们对这些数据进行删除操作。由于数据量较大且CD4初始值的不同对病人作用不同,因此特按CD4初始浓度进行分类,即按CD4的初始浓度在0--99、100--199、200--三个范围内的浓度分为三类。
2、建立回归分析模型
患者在服药期间,药物对机体带来的作用来自多方面原因,并且病毒对身体影响也来自多方面原因。比如患者服用的时间、患者体内CD4初始浓度及HIV的初始浓度对其影响,还可能它们的交互项对其有影响,因此对此建立回归方程:
然后通过SAS软件对其作回归分析,经过变量筛选,残差分析,及数据集的模型拟合,得出最佳回归函数,并对这个回归函数求一阶导,令及求解,最终确定最佳治疗终止时间。
3、模型求解
利用SAS软件进行数据拟合,得出如下相应的拟合函数和检验数据。
(1)相应的检验数据如下表:
相关参数
分类 | 回归参数 | R-Square | ||||
第 一 类 (0--99) | -0.82305 | 0.0470 | <0.0001 | 532.75 | 0.7366 | |
5.16197 | <0.0001 | |||||
0.45455 | <0.0001 | |||||
-0.07574 | <0.0001 | |||||
第 二 类 (100--199) | 0.40409 | 0.0610 | <0.0001 | 552.48 | 0.8487 | |
4.57993 | 0.0007 | |||||
0.17700 | <0.0001 | |||||
-0.07205 | 0.0174 | |||||
第 三 类 (200--) | 54.61347 | <0.0001 | <0.0001 | 345.58 | 0.9116 | |
1.51072 | 0.0635 |
A、第一类中各变量是明显显著的,且拟合优度 R-Square=0.7366较大,因此可得出第一类的回归方程为:
;
并令,求得,所以最佳终止时间为34周。
B、由于第二类中变量的,说明该变量不显著,因此得出该模型不是最佳,所以去掉该项后重新拟合得出第二类的回归方程:
;
并令,求得,所以最佳终止时间为35周。
C、尽管第三类中变量的不是十分显著,但其接近0.05,且CD4的浓度与时间有较大关系,因此得出第三类的回归方程为:
;
由于此时求得的方程为线性,所以在检测周数之上应继续治疗。
通过以上得知各类患者的最佳治疗终止时间如下表:
类 型 | 第一类 | 第二类 | 第三类 |
最佳治疗终止时间(周) | 34 | 35 | 继续 治疗 |
1、评价4种疗法的优劣
(1)、数据预处理
在本模型的原始数据中,存在含缺失数据的个案,影响数据的分析,而只占总数据量的2.224%,因此删除含有缺失值的个案。
(2)、对年龄和疗法分类
剔除奇异数据后,个体之间的差异集中体现在年龄上的不同,所以对病人按年龄进行分类,在同一年龄类中再对四种疗法进行比较研究,不在同一类的并不具有可比性。
对全部数据按年龄分为四类,即年龄区间小于18岁的为第一类;年龄区间在18——45岁之间的为第二类;年龄区间在45——60为第三类;年龄区间大于60岁的为第四类。在同一年龄类水平上,对区间内人口依治疗方法再进行分类,分别研究不同疗法的疗效。
(3)、建立双因素方差分析模型及模型求解
对(2)分类后,然后分别统计出每类病人的编号,疗法,测试CD4的时刻和测得的CD4,再对每类病人的4种不同的疗法,分为4组,即第种疗法为第组, 然后对每组的CD4浓度求平均值,如下表四。最后在同类不同组的病人以CD4平均值为标准进行疗法的优劣判断。
表一
类型A\疗法B | 疗法一 | 疗法二 | 疗法三 | 疗法四 |
第一类 | 2.69 | 2.58 | 2.78 | 2.96 |
第二类 | 2.75 | 2.79 | 2.91 | 2.87 |
第三类 | 2.71 | 2.72 | 2. | 3.08 |
第四类 | 2.78 | 2.74 | 2.83 | 2.91 |
通过SAS软件得出双因素ANOVA表,如下:
表二
方差来源 | 平方和SS | 自由度DF | 均方MS | F值 |
A | 0.3249 | 3 | 0.1083 | 11.19 |
B | 0.3012 | 3 | 0.1004 | 10.3505 |
误差 | 0.0875 | 9 | 0.0097 | |
总和 | 0.7136 | 15 |
故得出四种疗法的优劣排序为:
小于18岁的患者:4-3-1-2
18—45岁的患者:3-4-2-1
45—60岁的患者:4-3-2-1
大于60岁的患者:4-3-1-2
综合以上情况得出最优疗法为第四种疗法,第三种疗法次之,第二种和第一种疗法再次之。
2、对最优疗法继续治疗的效果预测
通过以上评价,疗法4为最佳疗法。基于问题一的讨论,我们采用问题一的解决方法对方案4的治疗效果进行预测。
将附件2中初始数据进行筛选,即筛选出较优方案4的测试数据,接着对方案4中数据进行必要的预处理,然后对其作回归分析,求出其回归方程及求导,最后求出最佳治疗终止时间。
按照问题一的评价标准,得出最佳停止治疗时间分别为:年龄<18岁继续治疗、18—45岁继续治疗、45—60岁治疗12周、年龄>60岁治疗33周。
问题三:
各方案的治疗费用不同,治疗效果也不同,在综合考虑费用和疗效的情况下,对四种方案进行评价,即讨论在加入疗效费用后,问题二评价出的最优方案是否仍最优,并对最优方案进行预测。采用层次分析法,以合理选择疗法方案为目标层,以疗效的好坏、费用的高低为准则层,考察四种方案的优劣。
1、建立层次分析数学模型
以“合理选择疗法方案”为目标层,建立层次结构模型如下图所示:
2、模型的求解
构造判断矩阵
由问题二所得结果可知四种疗法方案对提高CD4细胞浓度的有效程度由高到低依次为:方案4、方案3、方案2、方案1;四种疗法方案的日花费金额由低到高依次为:方案1、方案3、方案2、方案4。
根据上述条件,构造判断矩阵,见表三:
表三
表四
,满足一致性检验。
0.06 | 0.12 | 0.26 | 0.57 |
,满足一致性检验。
(3)、判断矩阵:
0. | 0.08 | 0.23 | 0.04 |
分析其原因,猜测是因为对影响力期望过高。因此,对判断矩阵进行修正,得到新的矩阵:
0.57 | 0.12 | 0.26 | 0.06 |
(4)对目标作层次总排序并进行一致性检验
层次P | 层次C | 层次P的总排序 | ||
c1 | c2 | |||
P1 | 0.060 | 0.570 | 0.185 | |
P2 | 0.120 | 0.120 | 0.107 | |
P3 | 0.260 | 0.260 | 0.247 | |
P4 | 0.570 | 0.060 | 0.4 |
由此得出各方案的优良程度排序变为:。
(5)考虑费用后对最优方案4治疗终止时间的预测
四种方案治疗费用分别为1.23、3.45、2.45、3.65美元/天,对不发达国家的消费者来说,是一笔不小的开支,必定会影响治疗终止的时间。
六 模型检验与评价
1、模型检验
我们在建立模型之后,用原始数据剔除奇异值代入模型,得出的结果与现实中医院对爱滋病治疗方案相近,说明模型的稳定性很高。
2、模型评价
这三个问题模型均是针对在对大量数据剔除异常值后,根据统计学原理建立相关模型再求解。但是因为原始数据中出现部分无用数据,对于我们判定奇异值,并将其剔除,提出了一定的挑战。这对模型的最后求解,特别是在建模过程中对有用数据的拟合产生了不小的困难,导致实际结果与理论计算结果存在一定的误差,这再所难免。但建模的过程中未考虑HIV的浓度,只考虑了CD4浓度在最大时效果最好。其实当CD4浓度最大时,而HIV的浓度不是最小时,可以认为其效果并不是最佳。只有这两方面都考虑了才可判断效果最佳时刻。因此我们可以对HIV的浓度做回归分析,当HIV最小,同时CD4最大时得出最佳治疗终止时间。
虽然题中模型存在一定的缺陷,但通过带入附件中所给数据,得出的结果与现实中医院对爱滋病治疗方案相近,说明模型有一定的可靠性。因此对艾滋病的预测与治疗提供了富有建设性的意见,特别是在现有药物的疗效已确定的情况下,对不发达国家和地区的艾滋病防治工作能产生深远的影响。同时还可以推广到对糖尿病,高血压,癌症晚期等其它很难治愈的疾病当中去的。
参考文献
[1]姜启源 谢金星 叶俊,数学模型,北京;高等教育出版社,2011年1月第4版
[2]阮桂海 蔡福金,SAS统计分析实用大全,北京;清华大学出版社,2003年6月第1版
[3]安建业 张银生,概率论与数理统计,北京:中国人民大学出版社,2004年5月
[4]http://www.madio.net/