
作者简介:薛胜军(1956唱),男,山东青岛人,教授,博导,主要研究方向为计算机网络、计算机支持的协同工作、人工智能、智能交通(ITS)、气象信息安全;聂靖(1986唱),女,江苏常州人,硕士研究生,主要研究方向为网格技术、数据挖掘、智能算法设计与分析(niejing.dorm@163.com).
基于混合优化模糊C均值算法的网格资源聚类倡
薛胜军,聂 靖
(南京信息工程大学计算机与软件学院,南京210044)
摘 要:为了更好地解决目前网格资源查找效率低下的问题,结合网格环境中普遍存在的资源相似现象,提出了基于遗传操作触发的粒子群混合优化算法的网格资源模糊C均值聚类,对网格资源进行最大相似性聚类,通过设置触发条件,避免了潜在的局部迭代,一定程度上简化了算法执行的复杂度。实验表明,该方法能提高分类的运行速度及准确率,可以很好地应用到网格资源聚类中,优化网格资源调度前期工作。关键词:网格资源聚类;遗传操作;触发;PSO;FCM
中图分类号:TP391 文献标志码:A 文章编号:1001唱3695(2010)06唱2153唱03doi:10.3969/j.issn.1001唱3695.2010.06.045
HybridFCMalgorithmtogridresourceclustering
XUESheng唱jun,NIEJing
(SchoolofComputer&Software,NanjingUniversityofInformationScience&Technology,Nanjing210044,China)
Abstract:Inordertobettersolvethegridresourcesdiscoveringproblemoflowefficiencyandexploitthegenerallyexistingcharacteristicofsimilaritybetweenresourcesingridenvironment,thispaperproposedahybridFCMalgorithmbasedonPSOandthetriggerofGAtomaximizetheclusteringofgridresources.Bysettingthetriggercondition,avoidedthepotentiallocaliteration,andsimplifiedacertainextent,thecomplexityofthealgorithm.Simulationresultsindicatethat,themethodim唱provestherunningspeedandaccuracyofclustering,andcanbewellappliedtothegridresourceclustering,therebythepre唱liminaryworkofgridresourceschedulingwillbeoptimized.
Keywords:gridresourcesclustering;geneticoperators;trigger;PSO;FCM
0 引言
为了满足不断提升的高性能应用的要求,将地理上分布、性能上异构的各种闲置资源通过互联网有组织地连接,实现多种资源的全面共享,成为推动网格技术迅速发展的动力。网格中的资源以一系列的属性所区别,如处理器类型、存储性能、计算能力、通信带宽等,而每一个应用都对执行该应用的网格资源节点有具体的要求,这样就需要设计一种可扩展的、能适应资源动态变化、可满足客户多样性,以及拥有好的定位性能的资源查找机制。
网格中的资源广泛存在着相似现象,因此,聚类作为数据挖掘中的重要技术被应用在网格中。根据聚类分析对资源进行分类,将应用在满足要求的一个或多个子集上运行,可以提高资源分配的准确性和定位性,降低资源选择时的复杂度及响
应时间。
目前相关的研究主要有:a)采用传递闭包求相似等价关系,并根据需要设置λ值进行截集得到资源聚类[1]
;b)根据用
户对所需资源性能需求,将网格资源聚类成不同性能比的资源
集合
[2]
;c)将资源按属性分类,再以簇内外相似度为调整参
数,用进化算法并行地在已分类集合中进行优化[3]
。但以上
方法有一定的随机性,而且很难适应网格资源的大数据量要
求,划分的精确度很难保证。
本文尝试利用基于遗传操作触发的粒子群算法优化模糊C均值聚类中心的选取,将PSO的全局搜索能力与FCM的局部搜索能力很好地结合起来,并通过遗传操作,扩大了粒子群的搜索范围,避免了早熟现象。并将此方法应用在网格资源聚类的问题求解中,解决了以往方法可能出现的问题,最后通过实验说明了算法的有效性。
1 模糊C均值算法
设聚类样本为X={x1,x2,…,xn},xk=(xk1,xk2,…,xks)为样本xk的s维特征矢量,xkj为样本xk在第j维特征上的赋值。将该样本集划分为c(2≤c≤n)个子集,聚类中心的集合为V={v1,v2,…,vc},模糊矩阵U=(μij),μik是第k个样本属于第i类的隶属度,m(m>1)为模糊指数。
FCM的目标函数
[4]
可描述为
Jm(U,V)=∑n
k=1∑ci=1
(μik)m(dik)
2
s.t. ∑ci=1
μik=1;μik∈[0,1];0<∑n
k=1
μik<
n(1)
其中:(dik)2
=|xk-vi|2
表示样本xk与第i类的聚类中心vi的距离。
聚类的准则为min{Jm(U,V)},应用拉格朗日乘法,结合约束条件∑c
i=1μik=1,可得使Jm(U,V)为最小的μik的值为
第27卷第6期2010年6月
计算机应用研究
ApplicationResearchofComputers
Vol畅27No畅6Jun畅2010
μik
(2)
同理可以获得Jm(U,V)为最小时,聚类中心vi的值:
vi=1
∑nk=1
(μik
)m∑n
k=
1(μik)m
xk(3)
下面给出FCM算法的具体步骤:
a)初始化参数。给定聚类类别数c,设定迭代停止阈值ε,初始化聚类中心V,设置迭代计数器t。
b)根据式(2)计算隶属度矩阵U。c)根据式(3)更新聚类中心V,并计算Jm(U,V)。
d)如果Jmt
(U,V)-Ji
t-1
(U,V)<ε,则算法停止并输出
划分矩阵U和聚类中心V;否则令t=t+1,转向步骤a)。
2 基于GA操作的PSO混合算法
2畅1 PSO简介
粒子群算法(PSO)是一种典型的群体智能算法,可以在
没有集中控制、不提供全局模型的前提下,很好地解决复杂性问题。其基本思想是受到早期对鸟类群体行为研究结果的启发,粒子可以根据它本身和同伴的飞行经验来动态调整飞行速度,从而改变自己当前的位置,完成粒子在搜索空间的寻优过程。
假设在一个d维的搜索空间中,由m个代表潜在问题解的粒子组成一个粒子群。其中每个粒子表示一个d维的向量,记为xi=
(xi1,xi2,…,xid),i=1,2,…,m,即第i个粒子在d维的搜素空间中的位置是xi。将xi代入一个与求解问题相关的目标函数中,可计算出其适应度值,然后根据适应度值的大小评价xi的优劣。用pbest记录第i个粒子自身搜索到的最好点(计算得到的适应值目前最优)。在整个粒子群中,至少有一个粒子的适应值是全局最优的,将其记录为gbest。另外每个粒子还有个速度变量,也是一个d维向量,记为vi=(vi1,vi2,…,vid),i=1,2,…,m。
PSO算法中粒子的位置、速度更新计算式如下:
vi
k+1
=wvik
+c1r1(pbest(i)-xi)+c2r2(gbest-xi)
(4)xik+1=xik+vik+1
(5)
其中:i=1,2,…,m;学习因子c1、c2一般取值为2;r1、r2是均匀分布在[0,1]的两个随机数;w是惯性权重;k为迭代次数。2畅2 基于GA操作的PSO算法众所周知,PSO在寻找最优解的效率上好于遗传算法
[5,6]
,但是PSO没有遗传操作(如选择、交叉、变异),而是
根据自己的速度来决定搜索过程,这样在算法收敛的情况下,所有的粒子都趋向同一最优解,约束了粒子的多样性。因此,以粒子群算法为模板,在粒子群原始操作的基础上增加遗传操作
[7]
,可以融合GA与PSO两者的优势,达到更快的收敛速度及更高的搜索精度。下面介绍基于GA操作的PSO算法优化过程。
1)选择 根据个体适应度,按照赌轮选择法,从粒子群中选择出M(偶数)个优良的个体。
2)交叉 对选出的M个个体,以交叉概率pc在随机产生的编码长度k处断点进行交叉,产生M个更优良的新个体。
xi=xi1xi2…xikxik+1…xilxj=xj1xj2…xjkxjk+1…xjl交叉后
xi^=xi1xi2…xikxjk+1…xjl
xi^
=xj1xj2…xjkxik+1…xilvi=vi1vi2…vikvik+1…vilvj=vj1vj2…vjkvjk+1…vjl
交叉后
vi^
=vi1vi2…vikvjk+1…vjl
vj^
=vj1vj2…vjkvik+1…vil
3)变异 变异操作是保持种群多样性的有效手段,交叉结束后的全部个体的编码位按变异概率pm随机改变。pm过小、过大都会影响算法的收敛速度和搜索精度,不利于实现提高全局搜索能力的目的。
3 基于GA唱PSO混合优化的模糊C均值算法
经过以上介绍分析,可以知道FCM是通过梯度下降的方法来寻优的,这样就存在局部最优问题。另外FCM的收敛速度对初始值的设定很敏感,尤其在聚类样本集较大的情况下。基于遗传操作的PSO优化算法有很强的全局搜索能力,收敛速度快,而且有很高的搜索精度,本文将两者结合,提出了一种新的混合模糊聚类。3畅1 算法思想
FCM的核心就是确定聚类中心,所以基于GA操作的PSO
算法对聚类中心进行编码。粒子均由c个聚类中心组成,每个粒子对应一种聚类方法,即粒子xi=
{ai1,ai2,…,aic}。其中aij代表第i种聚类方式的第j个聚类中心,即如果样本集有n个粒子,则有n种聚类方式。
方案的优劣用适应度函数来评判,这里的适应度函数即为
FCM聚类准则函数公式加上常数的倒数。即
f(xi)=
1
Jm(U,V)+δ
(6)
其中:δ为一给定的常数,一般取1。
如果聚类效果越好,适应度函数值就越高。
另外很重要的一点就是遗传操作触发的条件:当中止条件f
t+1
(xi)-ft
(xi)<ε未满足时,检查一段时间内粒子的
pbest和gbest,若这两个向量没有变化,则认为迭代陷入循环,此时遗传操作触发。3畅2 算法流程
下面给出算法详细的流程:
a)初始化参数。给定模糊化程度常数m,阈值ε,粒子群规模N,迭代计数器t。
b)初始化粒子群。随机选出c个样本作为一个聚类中心集(一个粒子),共进行N次,即形成规模为N的粒子群。随机产生每个粒子的初始速度vi,给定学习因子c1、c2,权重w。c)对粒子群进行编码。采用实数编码,一个编码对应一
个可行解。编码结构如下:
x11…x1sx21…x2s…xc1…xcs
每个粒子的位置由c个聚类中心组成,其中s为样本向量
维数。
d)对每个聚类中心按式(2)计算隶属度μij。其中i=
1,2,…,j=1,2,…,n。
e)对每个粒子,根据适应度函数f求出每个粒子的适应度
值,并由每个个体的适应值求出当前个体极值pbest和全局极值gbest。
f)用式(4)(5)对每个粒子的速度和位置进行更新,产生
・
4512・计算机应用研究
第27卷
下一代粒子群。
g)若新一代粒子群的适应值f
t+1
(xi)-ft
(xi)<
ε,输出最佳聚类中心个数c和聚类中心;否则检查是否陷入迭代循环,若陷入循环,触发遗传操作,若没有陷入转向步骤e)。h)将GA唱PSO混合算法得到的聚类中心个数c和聚类中
心代入FCM算法中,得到所有样本的聚类。
具体流程如图1所示。
4 网格资源聚类实例及结果分析
为了验证本文混合算法在网格资源聚类中的性能,将网格资源描述提取并量化为四个属性,分别是计算能力、存储能力、通信能力和稳定性,其中稳定性是以资源可使用的时间来衡量的。
在模拟实验中,以考察聚类精度和迭代过程为目的,采用Iris数据集
[8]
分别在传统FCM、基于PSO优化的FCM及基于
GA唱PSO混合优化的FCM上进行网格资源聚类分析。
表1给出了实验初始化参数。
表1 初始化参数表
初始化参数数据初始化参数数据样本向量维数s4交叉率pc0.7学习因子c12变异率pm0.01学习因子c22中止阈值ε0.000001
惯性权重w
0.9
粒子数N
40
数据集Iris中的四个特征分别模拟本文网格资源四维特征向量值,资源节点数为150。设置最大迭代次数为40,实验结果如表2所示。
表2 实验结果对比表格
算法正确聚类样本
错误聚类样本
错误率/%FCM
135
1510
PSO唱FCM14374.67GA唱PSO唱FCM1464
2.67
从表2的实验结果对比中可以看到,传统的FCM算法聚类精度不够,这样在网格大规模资源节点数目的环境下更难适应实际需求,降低了后续网格任务执行过程中的资源映射的效率,而基于GA唱PSO混合优化的FCM算法聚类精度有了明显的提高。
图2是传统FCM算法对Iris数据集的聚类过程,MATLAB已经有专门的模拟工具箱。从图2中可以看出,基于梯度下降的FCM算法随着后期迭代次数的增加变化很不明显,极易陷入局部最小。
图3为PSO唱FCM、GA唱PSO唱FCM对Iris的聚类过程(适应值变化
从图3中可以看出PSO唱FCM、GA唱PSO唱FCM都能较好地收敛到全局最优,但GA唱PSO唱FCM的收敛速度明显优于PSO唱FCM,在迭代次数较少的时候就已经接近最优值。
5 结束语
本文提出了一种基于遗传操作触发的粒子群混合优化模糊C均值的网格资源聚类方法。将PSO全局查找能力与FCM局部寻优能力结合起来,保证了网格大规模资源的聚类精度。为改善粒子群优化聚类中心和聚类中心个数的过程,引入了遗传选择、交叉、变异操作,并设置了遗传操作触发的条件,通过监控一定迭代次数内粒子的pbest、gbest,避免了粒子群陷入迭代循环,同时加快了聚类速度。另外遗传操作的也满足了网格资源多样性的要求。实验证明,本算法在网格资源聚类中有较好的应用前景。参考文献:
[1]DUXao唱li,JIANGChang唱jun,XUGuo唱rong,etal.GridDAG
schedulingalgorithmbasedonfuzzyclustering[J].JournalofSoft唱
ware,2006,17(11):2277唱2288.
[2]GUODong,HULiang,JINShi唱lan,etal.Applyingpreference唱
basedfuzzyclusteringtechnologytoimprovegridresourcesselectionperformance[C]//Procofthe4thInternationalConferenceonFuzzySystemsandKnowledgeDiscovery.WashingtonDC:IEEEComputerSociety,2007:214唱218.
[3]童一飞,李东波.基于属性的网格资源动态聚类研究[J].计算机
集成制系统,2008,14(4):813唱819.
[4]高新波.模糊聚类分析及应用[M].西安:西安电子工业出版社,
2004:49唱91.
[5]GANDELLIA,GRIMACCIAF,MUSSETTAM,etal.Development
andvalidationofdifferenthybridizationstrategiesbetweenGAandPSO[C]//ProcofIEEECongressonEvolutionaryComputa唱
tion,2007:2782唱2787.
[6]PARSOPOULOSKE,VRAHATISMN.Onthecomputationofallglobal
minimizersthroughparticleswarmoptimization[J].IEEETransonEv唱olutionaryComputation,2004,8(3):211唱224.
[7]
PREMALATHAK,NATARAJANDrAM.DiscretePSOwithGAoperatorsfordocumentclustering[J].InternationalJournalofRe唱
centTrendsinEngineering,2009,1(1):20唱24.
[8]UCIKDDarchive[EB/OL].http://kdd.ics.uci.edu/.
・
5512・第6期薛胜军,等:基于混合优化模糊C均值算法的网格资源聚类
