最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

《Hadoop系统搭建及项目实践》试卷及答案2套

来源:动视网 责编:小OO 时间:2025-10-03 04:12:29
文档

《Hadoop系统搭建及项目实践》试卷及答案2套

班级:姓名:学号:学号装订线Hadoop系统搭建及项目实践期末考试试卷(A)本试卷满分共100分90分钟项目一二三四五总分满分3020102020100得分一、填空题(每空1分,共30分)1.HDFS的体系结构主要包括__________和___________两种节点。2.是一个类似于GoogleGFS的开源的分布式文件系统。它提供了一个可扩展、高可靠、高可用的大规模数据分布式存储管理系统。3.MapReduce采用__________架构,主要包括client、__________、___
推荐度:
导读班级:姓名:学号:学号装订线Hadoop系统搭建及项目实践期末考试试卷(A)本试卷满分共100分90分钟项目一二三四五总分满分3020102020100得分一、填空题(每空1分,共30分)1.HDFS的体系结构主要包括__________和___________两种节点。2.是一个类似于GoogleGFS的开源的分布式文件系统。它提供了一个可扩展、高可靠、高可用的大规模数据分布式存储管理系统。3.MapReduce采用__________架构,主要包括client、__________、___
班级:                        姓名:                                  学号: 

                                         学号

装订线
Hadoop系统搭建及项目实践期末考试试卷(A)

本试卷满分共100分                                90分钟

项目总分
满分3020102020100
得分
一、填空题(每空1分,共30分)

1.HDFS的体系结构主要包括__________和___________两种节点。

2.               是一个类似于GoogleGFS的开源的分布式文件系统。它提供了一个可扩展、高可靠、高可用的大规模数据分布式存储管理系统。

3.MapReduce采用__________架构,主要包括client、__________、__________和Task组件。

4.Hadoop的安装模式分为3种,分别是         、          和          。

5.                 是一个可在应用程序中提供的安全通信协议。它采用_________加密体系进行加密。

6.启动Hadoop的守护进程命令是:__________________;停止Hadoop的命令是______________。

7.一个典型的HDFS集群中,有一个____________、一个SecondaryNameNode和至少一个___________。

8.reduce函数以_________和__________列表作为输入。

9.HBase主要由一个_________服务器带多个__________________服务器组成。HBase使用_______________存放集群的元数据和状态信息。

10.HBase中的列被分组为          。

11.HBase属于NoSQL数据库的典型代表,并不支持________________语言。

12.ZooKeeper的核心是__________,这个机制保证了各个server之间的同步。实现这个机制的协议成为________协议。Zab协议有两种模式,分别是__________和___________。

13.Hive有三种数据管理方式,分别是________、____________和_____________。

14.Pig为MapReduce框架提供了一套类SQL的数据处理语言,称为___________。

二、单项选择题(每题2分,共20分)

1.  下面哪个程序负责 HDFS 数据存储。                 (        )

A. NameNode      B.Jobtracker

C. Datanode      D. secondaryNameNode

2.  HDFS 中的 block 默认保存几个备份。                 (        )

A. 3 份          B. 2 份

C. 1 份          D. 不确定

3.  HDFS1.0 默认 Block Size大小是多少。                (        )

A. 32MB          B. MB

C. 128MB        D. 256MB

4. 下面哪个进程负责 MapReduce 任务调度。                    (        )

A. NameNode           B. Jobtracker

C. TaskTracker        D. secondaryNameNode

5. Hadoop1.0默认的调度器策略是哪个。               (      )

A. 先进先出调度器     B. 计算能力调度器

C. 公平调度器         D. 优先级调度器

6. Client 端上传文件的时候下列哪项正确?                 (        )

A. 数据经过 NameNode 传递给 DataNode

B. Client 端将文件切分为 Block,依次上传

C. Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作

D. 以上都不正确

7. 在实验集群的master节点使用jps命令查看进程时,终端出现以下哪项能说明Hadoop主节点启动成功?                                  (        )

A. Namenode,Datanode, TaskTracker       

B. Namenode,Datanode, secondaryNameNode

C. Namenode,Datanode, HMaster   

D. Namenode,JobTracker, secondaryNameNode

8. 若不针对MapReduce编程模型中的key和value值进行特别设置,下列哪一项是MapReduce不适宜的运算。                      (        )

A. Max                B. Min

C. Count              D. Average

9. MapReduce编程模型,键值对的key必须实现哪个接口?     (        )

A.WritableComparable    B. Comparable

C. Writable              D. LongWritable

10. HBase数据库的BlockCache缓存的数据块中,哪一项不一定能提高效率。(    )

A. –ROOT-表             B. .META.表

C. HFile index           D. 普通的数据块

三、判断题(每题1分,共10分)

1. Hadoop 支持数据的随机读写。                                                (    )

2. NameNode 负责管理元数据信息metadata,client 端每次读写请求,它都会从磁盘中读取或会写入 metadata 信息并反馈给 client 端。                            (    )

3. MapReduce 的 input split 一定是一个 block。                             (    )

4. MapReduce适于PB级别以上的海量数据在线处理。                         (    )

5. 链式MapReduce计算中,对任意一个MapReduce作业,Map和Reduce阶段可以有无限个Mapper,但Reducer只能有一个。                             (    )

6. MapReduce计算过程中,相同的key默认会被发送到同一个reduce task处理。(    )

7. HBase对于空(NULL)的列,不需要占用存储空间。                      (    )

8. HBase可以有列,可以没有列族(column family)。                       (    )

9. 在Hadoop中,writable接口定义了两个方法,一个是其状态输入;另一个是状态输出。                                                                            (    )

10.pig运行模式只有本地模式。                                                (    )

四、简答题(每题5分,共20分)

1.启动Hadoop系统,当使用bin/start-all.sh命令启动时,请给出集群各进程启动顺序。

 

 

2.简述HBase的主要技术特点。

3. Hive数据仓库中,创建了以下外部表,请给出对应的HQL查询语句

CREATE EXTERNAL TABLE sogou_ext (

ts   STRING,    uid   STRING,    keyword  STRING,  

rank INT,       order INT,       url   STRING,  

year INT,       month INT,       day   INT,    hour INT

)

COMMENT 'This is the sogou search data of extend data'

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\'

STORED AS TEXTFILE

LOCATION '/sogou_ext/20160508';

(1)给出uid总数的HQL语句

(2)对于keyword,给出其频度最高的20个词的HQL语句

4.Hadoop中都有哪些压缩格式?

班级: 姓名: 学号: 

 学号

装订线
五、程序设计题(每题10分,共20分)

  1. 100万个字符串,其中有些是相同的(重复),需要把重复的全部去掉,保留没有重复的字符串。请结合MapReduce编程模型给出设计思路或核心代码。

2.下面程序从HBase中读取数据写入HDFS中请在下面程序的下划线中补充完整程序(共5处)。

package com.simple;

public class WriteDataToHdfs{

public static String tableName=”phoneurl”;//hbase的表名

static class HdfsSinkMapper extends TableMapper{

//1. map过程,相当于读取过程;key代表hbase行键;result代表一行的字段值

protected void map(IMMutableBytesWritable key,Result value,Context context) throws IOException,InterruptedException{

//获取row

byte[] bytes=(1)

String phone=new String(bytes);

//value为url字段,属于行键baseinfo

byte[] urlbytes=value.getValue(“baseinfo”.getBytes(),”url”.getBytes());

//将列值转换为string

String url =new String(urlbytes);

//写出一行数据

(2)}

}

//2.reduce,reduce是把map的数据一行行写下来

static class HdfsSinkReducer extends Reduce{

protected void reduce(Text key,Iterable values,Context context) throws IOException,InterruptedException{

(3)}

}

public statice void main(String[] args) throws Exception{

Configuration conf=HBaseConfiguration.create();

conf.set(“hbase.zookeeper.quorum”,”172.0.0.1:2181”);

Job job=Job.getInstance(conf);

job.setJarByClass(WriteDataToHdfs.class);

Scan scan=new Scan();

//设置map

TableMapReduceUtil.initTableMapperJob(tableName,scan,HdfsSinkMapper.class,Text.class,NullWritable.class,job);

//设置reducer

(4)

//设置OutputFormat的输出路径

FileOutputFormat.setOutputPath(job,new Path(“\hbase-2.0.5\\output”););

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(NullWritable.class);

(5)}

}

班级:                        姓名:                                  学号: 

                                         学号

装订线
Hadoop系统搭建及项目实践期末考试试卷(B)

本试卷满分共100分                                90分钟

项目总分
满分3020102020100
得分
一、填空题(每空1分,共30分)

1._____________ 负责HDFS数据存储。

2.HDFS中的block默认保存__________ 份。

3.________________程序通常与 NameNode 在一个节点启动。

4.hadoop运行的模式有: ___________、_____________、____________。

5.Hadoop集群搭建中常用的4个配置文件为:____________、__________、__________、____________。

6. HDFS将要存储的大文件进行_______,然后存放在既定的存储块中,并通过预先设定的优化处理,模式对存储的数据进行预处理,从而解决了大文件储存与计算的需求。

7.一个HDFS集群包括两大部分,即 namenode与datanode 。一般来说,一个集群中会有一个___________和多个___________共同工作。

8.___________是集群的主服务器,主要是用于对HDFS中所有的文件及内容数据进行维护,并不断读取记录集群中 datanode 主机情况与工作状态,并通过读取与写入镜像日志文件的方式进行存储。

9.___________在HDFS集群中担任任务具体执行角色,是集群的工作节点。文件被分成若干个相同大小的数据块,分别存储在若干个 datanode 上,datanode 会定期向集群内  namenode 发送自己的运行状态与存储内容,并根据 namnode 发送的指令进行工作。

10.block是HDFS的基本存储单元,默认大小是___________  。

11.格式化HDFS系统的命令为:____________。

12.Hadoop集群中有三种作业调度算法,分别为____________、____________、____________。

13.通过  Zookeeper 管理两个或者多个NameNode,使一个NameNode为________状态,并且同步每个NN的元数据,如果 active 状态的NN宕机后马上启用状态为 __________状态的备用节点。

14. PigLatin程序由一系列的__________或____________组成。

15. 启动ZooKeeper的命令是:_____________,停止ZooKeeper的命令是_________。

16. Storm集群中存在两种类型的节点:运行___________服务的主节点和运行_________服务的工作节点。

17. Sqoop核心功能有两个:____________和_____________。

二、单项选择题(每题2分,共20分)

1.hadoop______中将海量数据分割于多个节点,由每个节点并行计算,将得到的结果归并到输出。                                                                (    )

A.应用场景        B.分布式计算        C.分阶段计算        D.高效处理

2._______模式:Hadoop安装运行在多台主机上,构成一个真实的hadoop集群,在所有的节点上都安装JDK和hadoop,相互通过高速局域网连接。            (    )

A.联机        B.单机        C.虚拟分布        D.完全分布

3.HDFS结构不包括________。                                                (    )

A.Master体系结构        B.主从服务器        C.元数据服务器        D.存储服务器

4.下列_______通常与NameNode在一个节点启动。                            (    )

A.SecondaryNameNode            B.DataNode

C.TaskTracker                    D.Jobtracker

5.下列关于MapReduce的基本思想叙述不正确的一项是_________。            (    )

A.对相互间具有计算机以来关系的大数据进行分而治之。

B.用Map和Reduce两个函数提供了高层并行编程抽象模型。

C.提供了同一框架

D.为程序员隐藏系统细节

6.下列关于HBase系统分层架构叙述不正确的一项为_______。                (    )

A.HDFS提供了HBase的顶层物理存储结构

B. Hadoop平台提供了存储基础结构:Hadoop集群及系统软件

C.客户端:提供了数据库访问接口

D. Region Server:管理多个regions并提供数据访问服务

7. HBase是分布式列式存储系统,记录按什么集中存放。                 (    )

A. 列族                  B. 列

C. 行                    D. 不确定

8. HBase的Region组成中,必须要有以下哪一项。                     (    )

A. StoreFile             B. MemStore

C. HFile                 D. MetaStore

9. 客户端首次查询HBase数据库时,首先需要从哪个表开始查找。        (    )

A. .META.                B. –ROOT-

C. 用户表                D. 信息表

10、设计分布式数据仓库hive的数据表时,为取样更高效,一般可以对表中的连续字段进行什么操作。                                                  (    )

A. 分桶                  B. 分区 

C. 索引                  D. 分表

三、判断题(每题1分,共10分)

1. Block Size 是不可以修改的。                                                (    )

2. Hadoop 是 Java 开发的,所以 MapReduce 只支持 Java 语言编写。        (    )

3. 因为 HDFS 有多个副本,所以 NameNode 是不存在单点问题的。                 (    )

4. Hadoop 支持数据的随机读写。                                                 (    )

5. Hadoop 默认调度器策略为 FIFO。                             (    )

6.HDFS的namenode保存了一个文件包括哪些数据块,分布在哪些数据节点上,这些信息也存储在硬盘上。                                                                (    )

7. Slave 节点要存储数据,所以它的磁盘越大越好。                          (    )

8. Pig数据类型分为两种,即简单数值类型和复杂数值类型。                    (    )

9. pig执行方式有三种。                                                        (    )

10.Hive主要用来做OLAP,而不是OLTP。                                        (    )

四、简答题(每题5分,共20分)

1.简述hdfs文件写入的流程。

 

 

2.简述Hadoop中replication(复本)放置策略?

3. 请简述mapreduce中的combine和partition的作用

4.hadoop中RecordReader的作用是什么?

班级: 姓名: 学号: 

 学号

装订线
五、程序设计题(每题10分,共20分)

1.有一个文档库,包含有大量的文档,现需要使用MapReduce编程技术对文档内容建立一个倒排索引库。要求Reduce最后输出键值对为<单词, 文件名#偏移量>,并且前后输出的相同的key所对应的文件名是字典序的。如:

word1  doc1#200

word1   doc2#10

word2   doc2#10

假设在map阶段已经获取了当前split分片的文件名是 String filename。请按要求给出reduce设计思路或核心代码。

Map(){

String filename=fileSplit.getPath().getName();

String temp=new String();

String line=value.toString().toLowerCase();

StringTokenizer iter=new StringTokenizer(line);

For(;itr.hasMoreTokens();){

Temp=iter.nextToken();

If(!stopwordscontains(temp)){

   Text word=new Text();

   Word.set(temp+”#”+fileName);

   Context.write(word,new IntWritable(1));

}

}

}

2.已知部署好的Hadoop分布式文件系统HDFS,请使用hadoop提供的

   javaAPI进行文件操作,将以下程序中的共3处代码补充完整。

   public class HdfsDemo {

      //hdfs路径

       public static final String HDFS_PATH="hdfs://hadoop100:9000";  

      //要创建的目录

       public static final String DIR_PATH="/mydir";  

      public static final String FILE_PATH=/mydir/hello.txt;

 

         public static void main(String[] args) throws Exception {

            Configuration conf=new Configuration(); //创建conf对象

            URI uri=new URI(HDFS_PATH);  //创建uri对象

            //补充代码1:创建fileSystem对象

                       

            //补充代码2:创建mydir文件夹

           

          //补充代码3:上传本地/root/hello.txt文件到上面新建的HDFS文件夹

        

   }

Hadoop系统搭建及项目实践期末考试试卷A答案

一 填空题

(1) namenode 、 datanode                                                2

(2) HDFS(Hadoop Distributed File System)                                1

(3) Master/Slave、JobTracker、TaskTracker                                    3

(4) 单机安装、分布式安装、伪分布模式                                    3

(5) SSH、非对称                                                            2

(6) start-all.sh、stop-all.sh                                            2

(7) NameNode、DataNode                                                    2

(8) key、value                                                            2

(9) HMaster、HregionServer、Zookeeper                                3

(10) 列族

(11) SQL结构化查询语言

(12) 原子广播、Zab、恢复模式、广播模式

(13) CLI(命令行)方式、Web界面方式、Hive远程服务启动方式

(14) PigLatin

二、单项选择题

1-5     CABBA

6-10    BDDAD

三、判断题

错错错错对

对对错对错

四、简答题

1.答:启动顺序:namenode –> datanode -> secondarynamenode -> resourcemanager -> nodemanager 

2.答:(1)列式存储

(2)表数据是稀疏的映射表

(3)读写的严格一致性

(4)提供很高的数据读写速度

(5)良好的线性可扩展性

(6)提供海量数据

(7)数据会自动分片

(8)对于数据故障,hbase是有自动的失效检测和恢复能力。

(9)提供了方便的与HDFS和MAPREDUCE集成的能力。

3.(1)给出uid总数的HQL语句

答:select count(distinct UID) from sogou_ext;

(2)对于keyword,给出其频度最高的20个词的HQL语句

答:select keyword from sogou_ext group by keyword order by order desc limit 20;

4.答:HDFS常见的压缩格式为GZIP、BZIP2、LZO、Snappy和LZ4。

gzip格式是同时使用了LZ77算法和哈夫曼编码的一个无损数据压缩算法。它是一个标准压缩算法,压缩和解压缩可以在自由、通用的压缩库zlib上找到。

bzip2是Julian Seward开发并按照自由软件/开源软件协议发布的数据压缩算法及程序。bzip2比传统的gzip或者zip的压缩效率高。

LZO是Lempel-Ziv-Oberhumer的缩写。该算法是无损压缩算法,参考实现程序是线程安全的,如果LZO文件已经预处理过程中被索引了,那么LZO文件是可切分的。

LZ4是面向字节的LZ77压缩方案,是无损数据压缩算法。他的压缩率稍逊于LZO,但它的压缩速度和解压缩速度比LZO要快。

五程序设计题

1.

Public static class ProjectionMapextends Mapper

{

Private int clo;

Project void setup(Context context) throws IOException,InterruptedException{

    Col=context.getConfiguration().getInt(“col”,0);

}

Public void map(LongWritable offset,Text line,Context context){

     RelationA record=new   RelationA (line.toString());

     Context.write(newText(record.getCol(col)),NullWritable.get());

}

}

REDUCE端实现代码:

Public static class ProjectionRedice extendsReducer

Public void reduce(Text key,Iterable value,Contextcontext)throws IOException,InterruptedException{

Context.write(key,NullWritable.get());}

2.

(1)key.copyBytes();

(2)context.write(new text(phone+”\”+url),NullWritable.get());

(3)context.write(key,NullWritable.get());

(4)job.setReducerClass(HdfsSinkReducer.class);

(5)job.waitForCompletion(true);

Hadoop系统搭建及项目实践期末考试试卷B答案

一 填空题

(15) datanode                                                

(16) 3                                

(17) ResourceManager      

(18) 单机模式、分布式模式、伪分布模式                                

(19)     core-site.xml  、hdfs-site.xml 、  mapred-site.xml 、 yarn-site.xml

(20)  分割                                                        

(21) NameNode、DataNode                                                    

(22) nameNode                                                            

(23) DataNode                                

(24) 128M

(25) hdfs namenode –format       

(26)   FIFO调度  ,  计算能力调度 和  公平调度  

(27)  active \\standby 

(28) 操作、变换

(29) zkServer.sh start  zkServer.sh.stop

(30) Nimbus    Supervisor

(31) 导入数据、导出数据

三、单项选择题

1-5     BDADA

6-10    AABBA

三、判断题

错错错错对

错错对对对

四、简答题

1.答:1) Client向NameNode发起文件写入的请求。 

2) NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。 

3) Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。

2.答:(Hadoop的默认布局策略是在运行客户端的节点上放第一个复本;第二个复本放在与第一个不同且随机另外选择的机架中的节点上(离架);第三个复本与第二个复本放在同一个机架上,且随机选择另一个节点。

3.答:combiner是发生在map的最后一个阶段,其原理也是一个小型的reducer,主要作用是减少输出到reduce的个数,减少reducer的输入,提高reducer的执行效率。

Partition的主要作用就是指定输出到reduce的个数的。

4.答:RecorderReader是一个接口,主要是用来读取文件的输入键值对的,我们也可以自定义输入的key,value对的读取规则。属于split和mapper之间的一个过程,将inputsplit输出的行为一个转换记录,成为key-value的记录形式提供给mapper

五程序设计题

1.

Reducer{

   Private IntWritable result=newIntWritable();

Public void reduce(Text,key,Iterable values,Context context) throws

IOException,InterruptedException{

     Int sum=0;

     For(InWritable val:values){

         Sum+=val.get();

     }

     Result.set(sum);

     Context.write(key,result);

  }

}

2.

(1) FileSystem fileSystem=FileSystem.get(uri,conf); 

 (2)fileSystem.mkdirs(new Path(DIR_PATH));    

 (3) 

FSDataOutputStream out=fileSystem.create(new Path(FILE_PATH));

 FileInputStream in=new FileInputStream("/root/hello.txt");

IOUtils.copyBytes(in, out, 1024, true); 

文档

《Hadoop系统搭建及项目实践》试卷及答案2套

班级:姓名:学号:学号装订线Hadoop系统搭建及项目实践期末考试试卷(A)本试卷满分共100分90分钟项目一二三四五总分满分3020102020100得分一、填空题(每空1分,共30分)1.HDFS的体系结构主要包括__________和___________两种节点。2.是一个类似于GoogleGFS的开源的分布式文件系统。它提供了一个可扩展、高可靠、高可用的大规模数据分布式存储管理系统。3.MapReduce采用__________架构,主要包括client、__________、___
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top