周晏,桑书娟
(安阳工学院计算机科学与信息工程学院,河南安阳455000)
摘要:随着云计算时代的到来,基于云计算进行海量数据挖掘成为一种解决传统集中式数据挖掘不适应海量数据不断增长的高效、可信方法。介绍了云计算的含义、特点以及发展现状,分析了运用云计算技术实现数据挖掘的优势,调查并总结了目前基于云计算数据挖掘技术的研究状况以及所面临的问题和挑战,并提出一些解决方法和措施。
关键词:云计算;数据挖掘
中图分类号:TP311文献标识码:A 文章编号:1009-3044(2010)34-9681-03
Data Mining Technology Based on Cloud Computing
ZHOU Yan,SANG Shu-juan
(Computer Science and Information Engineering College,Anyang Institute of Technology,Anyang 455000,China)
Abstract:With the cloud computing era coming,based on cloud computing for massive data mining as a solution to the traditional cen -tralized data mining massive data not suited to growing high-performance,reliable method.Describes the meaning of cloud computing,characteristics and development status,analysis of the use of cloud computing technology to achieve the advantages of data mining,investi -gate and summarize the current data mining based on cloud computing research situation and the problems and challenges faced by,and propose some solutions and measures.
Key words:cloud computing;data mining
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。海量数据不断增长,多样化个性化的数据挖掘需求强劲,传统的集中式数据挖掘方式已不适应。云计算由于其海量的存储能力和可弹性变化的计算能力成为解决海量数据挖掘的有效方式。
1云计算用于数据挖掘的优势
1.1云计算的含义
到目前为止云计算还没有公认的定义,随着对云计算的不断研究,它的定义也在动态的变化。
维基百科目前对云计算的定义是:云计算被认为是一种基于因特网的计算,它以请求式的方式将资源、软件和信息分配到计算机和其他设备上,就像一个公共基础设施[1]。
李德毅院士在第二届中国云计算大会上给云计算定义,认为它其实就是一种基于互联网的大众参与的计算模式,其计算资源都是动态的,被虚拟化了的,而且是以服务的方式提供,这些资源由存储能力、交互能力、计算能力等等组成[2]。
下面是从不同的角度对云计算的理解。
云计算是指IT 基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的资源(硬件、平台、软件)。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。这种特性经常被称为像水、电一样使用IT 基础设施。
云计算是并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现[3]。云计算是虚拟化(Virtualization)、效用计算(Utility Computing)、IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等概念混合演进并跃升的结果。
1.2云计算的特点
云计算具有以下特点[4]:
1)服务器规模巨大。“云”具有相当的规模,Google 云计算已经拥有上百万台服务器,Amazon 、IBM 、微软、Yahoo 等的“云”均拥有50多万台服务器。“云”能赋予用户超强的计算能力。
2)资源虚拟化。云计算支持用户在不同地理位置、使用各种终端获取服务。所请求的资源,是动态且无形的。应用在“云”中某处运行,但实际上用户不必关系它的具体位置。
3)可靠性较高。为了使用云计算更可靠,“云”采用了数据多副本容错等措施来保障其高可靠性的服务。
4)较强的通用性。由于在“云”的支撑下可以构造出千变万化的应用,所以,云计算针对的是变化的应用,而对于不同的应用运行可以由同一个“云”支撑。
收稿日期:2010-08-25
作者简介:周晏(1979-),女,河南安阳人,讲师,硕士,主要研究方向为软件工程,数据挖掘等。
ISSN 1009-3044Computer Knowledge and Technology
电脑知识与技术Vol.6,No.34,December 2010,pp.9681-9683E-mail:jslt@cccc.net.cn http://www.dnzs.net.cn Tel:+86-551-5690963569099681
5)可扩展性。尽管应用和用户规模在不断的增长,“云”的规模也可以通过动态伸缩而满足的这些需要。
6)按需服务。云可以象自来水,电,煤气那样计费,因此,用户可以按自己的需要进行购买。
7)价格低廉。因为“云”可以由极其廉价的节点来构成,所以“云”无需负担越来越高的数据中心管理成本,用户在享受“云”的低
成本优势的同时,传统系统的资源利用率也因为“云”得到了提高。
1.3云计算的发展与现状
云计算是个热度很高的新名词。由于它是多种技术混合演进的结果,发展极为迅速。Amazon、Google、IBM、微软和Yahoo等大公司是云计算的先行者。云计算领域的众多成功公司还包括Salesforce、、Youtube、Myspace等。
Amazon使用弹性计算云(EC2)和简单存储服务(S3)为企业提供计算和存储服务。Google当数最大的云计算的使用者。Google 搜索引擎就建立在分布在200多个地点、超过100万台服务器的支撑之上。Google地球、地图、Gmail、Docs等也同样使用了这些基础设施。IBM在2007年11月推出了“改变游戏规则”的“蓝云”计算平台,为客户带来即买即用的云计算平台。微软紧跟云计算步伐,于2008年10月推出了Windows Azure操作系统。Azure(译为“蓝天”)是继Windows取代DOS之后,微软的又一次性转—通过在互联网架构上打造新云计算平台,让Windows真正由PC延伸到“蓝天”上。
型——
在我国,云计算发展也非常迅猛。2008年5月10日,IBM在中国无锡太湖新城科教产业园建立的中国第一个云计算中心投入运营。2008年11月25日,中国电子学会专门成立了云计算专家委员会。2009年5月22日,中国电子学会举办了首届中国云计算大会。2009年11月2日,中国互联网大会专门召开了“2009云计算产业峰会”。2010年5月21日,中国移动发布了云计算平台“大云1.0”。
1.4基于云计算的数据挖掘的优势
用云计算的方式来处理海量数据进行挖掘的优势有以下三个方面[5]:
第一,由于数据挖掘处理的数据是海量的,要从海量的数据中挖掘出理解的知识,大规模的数据挖掘是必须的,并且随着互联网上数据的快速增长,数据挖掘的任务远比搜索任务要复杂,导致了在挖掘过程中需要有很好的开发环境和应用环境。这种情况下,基于云计算的方式是比较合适的。
第二,基于云计算实现低成本分布式并行计算环境,因此,企业的数据处理成本大大的降低,同时也不再依存于高性能的机器。
第三,基于云计算的数据挖掘开发方便,屏蔽了底层。在并行化条件下,云计算能够利用原有设备提高对大规模数据的处理能力和速度,既保证了容错性,也增加结点。
2基于云计算平台的数据挖掘实例
目前,基于云计算平台的数据挖掘研究已经取得了一些成果。以下是目前基于云计算数据挖掘的一些研究成果。
1)作为中国最早的基于云计算平台的并行数据挖掘系统之一PDMiner(Parallel Distributed Miner)是由中国科学院计算技术研
究所开发,基于开源云计算平台Hadoop的并行分布式数据挖掘平台[6]。
2)中国移动研究院研发了基于云计算平台Hadoop的并行数据挖掘工具,由于采用云计算技术,因此实现了海量数据的存储、
分析、处理、挖掘,并且可以向经分系统及网管系统提供高可靠性、高性能的数据挖掘分析支撑工具[7]。
3)ASF开发的一个全新的开源项目数据挖掘平台Apache Mahout,实现了开发人员在Apache在许可下免费使用的目标,并且
创建一些可伸缩的机器学习算法。Mahout包含许多实现,包括集群、分类、CP和进化程序。Mahout通过使用Apache Hadoop库可以有效地扩展到云中[8]。
4)开放数据组利用Python语言开发的开源数据挖掘系统Augustus支持预测模型标记语言,同时可以比较轻松地运行在Ama-
zon的云计算平台上[9]。
5)德国Fraunhofer智能分析和信息系统研究所在开源的数据挖掘软件WEKA和开源云平台Hadoop之上实现了一个图形化的
数据挖掘工具包,同时他们将件该软件和平台结合在一起,实现了软件在云平台上的转移[10]。
3基于云计算数据挖掘面临的问题和挑战
云计算技术虽然已经有了很多成功的应用,但是其技术还不成熟。云计算还处于初级阶段。所以,用云计算的方式来处理数据挖掘必然还存在很多的问题与挑战。这些问题和挑战主要有:
1)基于云计算数据挖掘算法的并行性存在一些挑战。用什么样的算法来处理目前的数据挖掘,这是一个首要的问题,并不是所
有算法都能够用云计算的方式完成目前的任务,我们需要选择合适的算法,并采取适当的并行策略,然后才能提高并行效率。
2)不确定性。数据挖掘当中有很多不确定性,之所以说数据挖掘,实际上就是要克服不确定性带来的影响。首先数据挖掘任务
的描述具有不确定性,数据采集和预处理也是带有很多的不确定性。
3)数据挖掘的方法和结果具有不确定性。什么样的方法和结果是吻合目标的?还需要在做数据挖掘过程中,把不确定性确定下
来。
4)挖掘结果的评价也是不确定的。因为每一个用户所关注的最终的挖掘目标不一样,这就导致了对挖掘结果的评价,它也有不
确定性。
5)软件、服务可信方面的问题与挑战。在云计算环境下实现数据挖掘,就导致了数据挖掘云服务软件的可信性问题变得比较突
出。首先,是服务的正确性。其次,是服务的安全性。再次,是服务的质量。
对于上面的问题和挑战,有以下一些对策:
1)基础建设方面,要建设数据挖掘云服务的平台。要根据个性化和多样化而谈,在云服务平台上,专业人士可以提供服务,大众
和各种组织成为服务的受益方,而且这个平台要按领域、行业来构建。
9682
数据库与信息管理
本栏目责任编辑:代影
数据库与信息管理本栏目责任编辑:代影Computer Knowledge and Technology 电脑知识与技术
第6卷第34期(2010年12月)(上接第9680页)
Sequencer 、driver 和monitor 在agent 中实例化,并且相互联系
起来。sequencer 与driver 之间的连接、driver 与DUT 之间的连接均
在agent 中完成。Env 中对其中的agent 进行一些参数的配置和对
DUT 的连线,对DUT 的同一个接口的agent 实例一般放在同一个
env 中。
3.3运行结果分析
仿真运行前在sequencer 中约束了icmp:udp:tcp:other 个数比
是10:10:20:5,共发500包。图8是3.2.3节描述的覆盖率的统计结
果。
可以直观的看到,数据包的统计结果符合预先约束的种类比例。当修改约束icmp:udp:tcp:other 个数比是10:30:0:5时,运行统计结果如图9。可以看到,TCP 包没有产生,所以没有被覆盖到,但其他类型的还是按照比例产生的。
4总结
本文介绍了随机化激励测试较定向测试而言,更高效,更可靠的优点,并结合ovm 验证环境介绍了SystemVerilog 下的随机化激励的产生与发送。随着集成电路的逻辑和功能设计越来越复杂,在验证环节需要投入的时间和资源越来越多,随机化的验证方法必然会以其高性能,高可靠性的特点得到广泛的应用。
参考文献:
[1]Chris Spear.System Verilog for Verification[M].Springer US,2008.
[2]IEEE Std.1800-2007.System Verilog IEEE Standard Document[S].IEC 62530:2007.
[3]Cadence,Mentor.Ovm User
Guide[M/OL].ver2.1,dec,2009.http://www.ovmworld.org/resources.php.
图8数据包类型覆盖率统计图9修改后的数据包类型覆盖率统计
2)
数据挖掘云服务要依赖于虚拟化技术,需要计算资源,需要自主分配和调度,虚拟化技术是数据挖掘云服务技术的支撑。3)
需求方面,对个性化、多样化需求,需要大众参与,有了大众的参与个性化和多样化的需求就能够更好的得到满足。4)
可信性方面,算法要通用,要可查,可调,可视。5)安全方面,隐私数据可以加密来保护,可以有一些安全措施。
4结束语
本文介绍了云计算的含义、特点以及发展现状,分析了运用云计算技术实现数据挖掘的优势,调查了目前基于云计算数据挖掘技术的研究状况,并总结了基于云计算数据挖掘所面临的问题和挑战,并提出一些解决方法和措施。随着云计算技术的进一步发展,必然会给数据挖掘带来新的突破和更好的技术支撑。
参考文献:
[1]维基百科.Cloud_computing [EB/OL].[2010-06-23].
[2]李德毅.第二届中国云计算大会[EB/OL].(2010-05-21)[2010-06-30].
[3]中国云计算网.什么是云计算?[EB/OL].(2008-05-14)[2010-04-23].
[4]刘鹏.云计算[M].北京:电子工业出版社,2010.
[5]何清.第二届中国云计算大会[EB/OL].(2010-05-21)[2010-06-30].
[6]智能科学.基于Hadoop 的并行分布式数据挖掘平台PDMiner [EB/OL].[2010-06-23].
[7]移动Labs.基于云计算的并行数据挖掘工具平台研究(一)[EB/OL].(2009-03-25).[2010-06-23].
[8]IBM 中国.Apache Mahout 简介[EB/OL].[2010-06-30].
[9]Source forge.Augustus[EB/OL].[2010-06-30].http://sourceforge.net/projects/augustus/
[10]Dennis Wegener,Michael Mock.Toolkit-based high-performance Data Mining of large Data on MapReduce Clusters[C].International Conference on Data Mining Workshops,2009.9683