最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

基于Hadoop的云计算试验平台搭建研究

来源:动视网 责编:小OO 时间:2025-09-25 21:48:03
文档

基于Hadoop的云计算试验平台搭建研究

第31卷第1期沈阳师范大学学报(自然科学版)V01.31No.12013年1月_,o越糯“o厂懿P,∞榭培Norm口ZL及i谢您i纱(№£拉豫Z&i跏卯)Jan2013文章编号:1673—5862(2013)01—0085一05基于HadOOp的云计算试验平台搭建研究张岩1,郭松2,赵国海2(1.沈阳师范大学计算机与数学基础教学部,沈阳110034;2.沈阳师范大学教育技术学院,沈阳110034)摘要:Hadoop是一个免费的开源云平台,是允许在集群计算机上分布式处理大数据的软件框架。它是一种
推荐度:
导读第31卷第1期沈阳师范大学学报(自然科学版)V01.31No.12013年1月_,o越糯“o厂懿P,∞榭培Norm口ZL及i谢您i纱(№£拉豫Z&i跏卯)Jan2013文章编号:1673—5862(2013)01—0085一05基于HadOOp的云计算试验平台搭建研究张岩1,郭松2,赵国海2(1.沈阳师范大学计算机与数学基础教学部,沈阳110034;2.沈阳师范大学教育技术学院,沈阳110034)摘要:Hadoop是一个免费的开源云平台,是允许在集群计算机上分布式处理大数据的软件框架。它是一种
第31卷第1期    沈阳师范大学学报(自然科学版)    V01.31 No.1

2013年1月    _,o越糯“o厂懿P,∞榭培Norm口Z  L及i谢您i纱(№£拉豫Z&i跏卯)    Jan 2013

文章编号:1673—5862(2013)01—0085一05

基于HadOOp的云计算试验平台搭建研究

张岩1,郭松2,赵国海2

(1.沈阳师范大学计算机与数学基础教学部,沈阳110034;

2.沈阳师范大学教育技术学院,沈阳    110034)

摘 要:Hadoop是一个免费的开源云平台,是允许在集群计算机上分布式处理大数据的软 件框架。它是一种可靠、高效、可伸缩的云平台,很适合在实验室环境下进行模拟测试。以 Hadoop为基础,借助虚拟机、强出粕re以及Linux、ubuntu、Hadoop、java—jdk等软件,详细地介绍 了单机环境下的虚拟云平台搭建过程,并给出具体的实例搭建过程。在设计实例中详细的论述了 虚拟机、java、Had∞p等软件的安装、设置、测试过程。实现了在实验室环境对云平台的虚拟,并提 出了在搭建试验平台时应该注意的用户权限、路径配置和使用ssH服务程序等问题。该试验平 台为系统中间件和应用服务的开发提供了基础。

关键词:Hadoop;云计算;虚拟;java 中图分类号:TP311    文献标志码:A doi:10.3969/i.issn 1673—5862.2013.01.019

0     引    言

云计算是继1980年大型计算机到客户端——服务器的大转变之后的又一种巨变。云是分布式计 算(distributed computing)、并行计算(parallel  computing)、效用计算(utility  computing)、网络存储 (network storage technologies)、虚拟化(virtualization)、负载均衡(10ad balance)等传统计算机和网络 技术发展融合的产物。云计算的核心思想是把大量的资源通过网络进行统一存储、调度和使用,形成一 个庞大的资源库,给用户提供服务。2011年,工业和信息化部、国家发展和改革委员会联合印发《关于 做好云计算服务创新发展试点示范工作的通知》,确定在北京、上海、深圳、杭州、无锡等5个城市先行开 展云计算服务创新发展试点示范工作,显示出我国对于发展云计算的高度重视[1]。

1    开源云平台——Hadoop

Hadoop是一个在大型集群的廉价硬件设备上运行应用程序的开源云平台软件框架。Hadoop为 应用程序透明的提供了一组稳定、可靠的接口和数据服务[2|。Hadoop中实现了Gb091e的MapReduce 算法,它能够把应用程序分割成许多很小的工作单元,每个单元可以在任何集群节点上执行或重复执 行。此外,Hadoop还提供一个分布式文件系统用来在各个计算节点上存储数据,并提供了对数据读写 的高吞吐率。由于应用了map/reduce和分布式文件系统使得Hadoop框架具有高容错性,它会自动处 理失败节点L3J。

Hadoop的优势不但在于它的开源,而且它的设计根本就是存储和计算的高可扩展性,分布式文 件系统的备份恢复机制和Mapreduce的任务监控又保证了分布式处理的高可靠性。任何普通的PC上 安装运行Hadoop框架集群,都可以对海量的信息进行高效处理[4]。

收藕日期:2012一08一12。  基金项目:辽宁省自然科学基金资助项目(201202197)。 作者简介:张岩(1968一),女,辽宁沈阳人,沈阳师范大学教授,硕士研究生导师。

万方数据

86     沈阳师范大学学报(自然科学版)    第31卷

为了能在实验室环境下实现云平台,并能够在云平台上进行开发测试,在考虑成本的前提下,可以 采用虚拟环境下的云平台的搭建,既节省资金又能完成试验的目的。

2    Hadoop虚拟平台搭建

2.1硬件和软件需求

软件:VMware虚拟机8.o以上版本,Linux操作系统本文采用ubuntulo.04版本,Hadoopl.o.4,

java-jdk 1.6.x。

硬件:一台清华同方个人PC,CPU采用13—2120,内存4 GB,硬盘500 GB,预装Windows)【P操作 系统。

2.2    Linux虚拟机安装与设置

在Windows XP系统下安装Ⅵ订ware虚拟机以后,打开虚拟机,在虚拟机下安装Linux操作系统, 由于实验用的模拟平台采用一个主机和4个节点,需要虚拟5台计算机。为了能够网络通信,要对虚拟 机的网络进行相应得配置。

VMware的虚拟网络适配器通常采用Bridge和NAT两种方式,使虚拟机能够进行网络连接‘5|:

1)Bridge方式:可以给虚拟机分配一个与主机相同网段的IP地址,实现多台主机连接。

2)NAT方式:VMware虚拟一个局域网,此种方式非常适合单主机多虚拟机构建集群。在虚拟 Hadoop系统集群中。在实验中采用NAT方式。通过clone选项可以看到在ⅥⅥware中安装了几台 虚拟机[6l。

打开/etc/network/interfaces文件手动配置IP地址,这里是IP、网关、子网掩码等的一些配置;配 置IP地址和网关,使用$sudo gedit/etc/network/interfaces打开文件,在文件里面添加如下内容:[7]

#上面的是回环

#下面是网卡ethO的配置

auto eth0

#staic表示静态IP  iface ethO inet static address 192.168.205.10 netmask 255.255.255.O

gateway 192.168.205.2

#net、^mrk  192.168.3.0

#broadcast 192.168.3.255

#后面两条是网络号和广播号,这个可以由其他信息计算,因此无需设置。

使用sudo gedit/etc/resolv.conf命令配置DNS,把它设置为nameserver 210.30.208.10。要实现

Hadoop联机成功,要在主机和节点上都作相应的设置并制定主机[8|。

$sudo gedit/etc/hosts

192.168.205.10had0

192.168.205.11cloudl

192.168.205.12cloud2

192.168.205.13cloud3

192.168.205.14cloud4

实验中把hado设置为主机,其余都为节点。

2.3在主机中手动安装JaVa.JDK

在虚拟机中下载JDK一6u24一linuX_i586.bin,并将其拷贝到安装目录下,使用命令:

$sudo chomod u+x jdk-6u24一linuX-i586.bin∥给文件赋予权限

$sudo./jdkl.6.o.24∥安装文件

万方数据

第1期    张岩,等:基于Hadoop的云计算试验平台搭建研究    87

打开profile文件添加如下代码:

Export JAVA—HOME=/usr/java/jdkl.6.0—24

Export JRELHOME一$JAVA—HOME/jre

Export PATH一$PATH:$JAVA—HOME/bin:$JRE—HOM[E/bin

Export CLASSPATH一.:$CLASSPATH:$JAVA—HOME/lib:$JRELHOME/lib

执行命令$source/etc/profile使环境变量生效,输入java-version检查环境变量设置。

2.4在主机中安装Had00p

把Hadoop安装文件拷贝到安装目录下,进行解压缩后给文件赋予权限。

1)用编辑器打开.Bashrc文件进行更新,这个文件可以定位Hadoop、Java环境[9|。

#Set Hadoop_related environment variables

export  HADOOP.-HOME=/usr/10cal/hadoop

#Set JAVA HOME

export JAVA—HOM[E一/usr/java/jdkl.6.O一24

#SOme convenient aliases and functions for running Hadoop_related commands unalias fs&>/dev/nun

alias fs一”hadooD fs” unalias hls&>/dev/null alias hls一”fs—ls”

1zohead(){hadoop fs—cat$1    lzop—dc    head一1000     less)

#Add Hadoop bin/directory to PATH

export PATH一$PATH:$HADOOP HOME/bin

2)打开hadoop_env.Sh文件设置java安装路径[10]:

Export JAVA—HOM[E一/usr/java/jdkl.6.0—24

3)下面要修改3个重要文件: hadoop/conf/core-site.xml; hadoop/conf/hdfs—site.xml; hadoop/conf/mapred_site.xml。

①修改Hadoop/conf/core-site.xml,配置主节点[11],在configuration中添加:

<:!一一In:conf/core—site.m1一一>

<

hadoop.tmp.dir</name>

/app/hadoop/tmp</value>

<:description:>A base for other temporary directories.<</description>

</property>

<:property:>

fs.default.name<:/name>

hdfs:∥localhost:54310</value>

<:description>The name of the default file system.A URl whose

scheme and authority determine the FileSystem implementatioIL The

uri’s scheme determines the config property(fS.SCHEME.impl)nami迤 the FileSystem implementation class.The uri’s authority is used to determine the host,port,etc.f6r a filesystem.<:/description>

t</property>

②修改hadoop/conf/mapred-site.xml,为配置jobtracker[12]

万方数据

88     沈阳师范大学学报(自然科学版)    第31卷

<

mapred.job.tracker<:/name二>

localhost:54311</value>

The host and port  that  the MapReduce job tracker runs

at.If”local”,then jobs are run in—process as a single map and  reduce task.

</description>

<:/property>

③修改hadoop/conf/hdfs—site.xml,这里要配置从节点的数    13]

o

<

dfs.replication</name>

1</value>

Default block  replication.

The actual  number of replications can be specified when the file is created. The default is used if replicatiop is not specified in create time.

</description>

<</property>

最后,对HDFS文件系统进行格式化。Hado。p云平台主机就按装完成了。其他节点可以通过

ssH进行克隆安装。把节点安装好以后可以使用[14]。

2.5    运行wordcount.java测试平台‘15]

1)先在本地磁盘建立2个文件file01和file02; [cuijj@stationl]$echo”Hello cuijj bye  cuijj}f>file01 [cuijj@stationl]$echo”Hello Hadoop Goodbye Hadoop”>file02

2)在hdfs中建立一个input目录;

[cuijj@stationl]$hadoop dfs—mkdir input

3)将file01和file02拷贝到hdfs的input目录下; [cuijj@stationl]$hadoop dfs—copyFromI幻cal/home/cuijj/fileoinput

4)查看hdfs中有没有input目录; [cuijj@stationl]$hadoop dfs—ls

5)查看input目录下有没有复制成功file01和file02;

6)执行wordcount(确保hdfs上没有output目录);

[cuijj@stationl hadoop-o.20.2]$     had。op jar hadoop-o.20.2一examples.jar wordcount input output

7)运行完成,查看结果。 总    结 经过测试Hadoop平台已经正常工作,云计算虚拟试验平台搭建完成,可供实验人员和开发人员在

此平台上进行程序设计和开发应用系统。在搭建过程中发现几点应该在以后的搭建平台过程中引起

注意:

1)用户的权限问题。如果权限配置不正确,会导致java和Hadopp不能安装。

2)路径的配置要正确。如果路径配置错误,会导致Hadoop运行时不能启动Java,从而Hadoop也 不能正常工作。

万方数据

第1期    张岩,等:基于Hadoop的云计算试验平台搭建研究    

3)使用sSH服务程序。正确使用SSH服务程序克隆节点机,可以很大程度地简化安装过程。 通过研究和实验,实验用云计算虚拟平台已经搭建完成。该实验平台可以为进一步研究各种平台

系统接口和中间件提供实验基础,并为深入研发基于云计算的用户服务创造条件。

参考文献:

[1]田杰棠.我国云计算产业发展趋势及建议[J].经济纵横,2011(8):31—35. [2]黎春兰,邓仲华.论云计算的价值[J].图书与情报,2009(4):42—47. [3]张建勋,古志民,郑超.云计算研究进展综述[J].计算机应用研究,2010(2):429—435. [4]张霖,罗永亮.制造云构建关键技术研究[J].计算机集成制造系统,2010(16):2512—2522. [5]柯栋梁,郑啸,李乔.云计算:实例研究与关键技术[J].小型微型计算机系统,2012(33):2321—2328. [6]刘立群,池洁.构建基于网络协作学习教学环境[J].沈阳师范大学学报:自然科学版,2012,30(2):81—85. [7]曹风兵,吴开贵,吴长泽.基于Hadoop的校园云计算系统[刀.计算机系统应用,2011(6):46—55. [8]王宏宇.Hadoop平台在云计算中的应用[J].软件,2011(12):33—37. [9]多雪松,张晶,高强。基于Hadoop的海量数据管理系统[J].微计算机信息,2010(13):202—205.

[10]杨曼.Hadoop云计算平台在高校试验室教学环节中的实现[J].电脑知识与技术,2011(9):2179—2182. [11]罗军舟,金嘉晖,宋爱波,等.云计算:体系架构与关键技术[J].通信学报,2011(7):3—21. [12]江务学,张瑗,王志明.MapReduce并行编程架构模型研究[J].微电子学与计算机,2011(6):168—175. [13]孙福权,张达伟,程勖,等.基于Had00p企业私有云存储平台的构建[J].辽宁工程技术大学学报:自然科学版,2011

(12):913—916. [14]崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计开发[J].计算机研究与发展,2012(增刊1):12—17. [15]李成华,张新访,金海,等.MapReduce:新型的分布式并行计算编程模型[J].计算机工程与科学,2011(33):129

—135.

0In c伽struction of experiment platfo哪of HadVop b嬲ed doud c帅puting

ZHANG y口n1,GU0 SD咒92,ZHAOG‘0妇i 2

(1.Depanment 0f%mputer and Mathematical Teacllillg,Shenyang No珊a1 UIliversity,Sheny锄g 110034,Clli舱;

2.C0llege of Education TechnolOgy,Shen)rang Nomal Unjversity,ShenyaIlg 110034,China)

AbstI翟ct:  Hadoop is a free open source cloud platfom,which is a framework that allows fbr the distributed processirlg of large data  sets acmss clusters of∞mputerS using simple programmiIlg models.It is a reliable,efficient,scalable cloud

platfonn,is very suitable for simulation test in laboratory envim咖ent. h t}lis paper,诵th the help of some Sof“rare

such aS virtual  machine VMware,Linux,ubuntu,Hadoop,java_idk,the building proceSS in the stand-alone envimnment of vinual cloud platfom、憾s described in detail based on the Had00p.The building process of vinual cloud platfo咖in a specific e】【ample was alS0 elaborated.It、阳s desc曲ed tht how to inStaU Had00p and java and how to set up in detail.It completed the  experiment en访m咖em,and point  out that  some pmblem must be  paid  attention during the  buiIding

proceSs,such as  e瑚mple for user right,path con矗guration aJld using of ssH senrice prograIll. This experimental

platfo咖pmvides the basis  for the development of system middle、张re and application seⅣic已

Key words:   Hadoop;cloud computillg;virtual;java

万方数据

文档

基于Hadoop的云计算试验平台搭建研究

第31卷第1期沈阳师范大学学报(自然科学版)V01.31No.12013年1月_,o越糯“o厂懿P,∞榭培Norm口ZL及i谢您i纱(№£拉豫Z&i跏卯)Jan2013文章编号:1673—5862(2013)01—0085一05基于HadOOp的云计算试验平台搭建研究张岩1,郭松2,赵国海2(1.沈阳师范大学计算机与数学基础教学部,沈阳110034;2.沈阳师范大学教育技术学院,沈阳110034)摘要:Hadoop是一个免费的开源云平台,是允许在集群计算机上分布式处理大数据的软件框架。它是一种
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top