
| 总分 | 题型 | 单选题 | 多选题 | 判断题 | 填空题 | 简答题 |
| 题分 | ||||||
| 得分 |
| 得分 |
1.下列选项中,用于获取Zookeeper所包含的信息的Shell命令是()。
A、ls
B、ls2
C、r
D、get
2.MapReduce处理数据的工作流程大致分为()步。
A、两
B、三
C、四
D、五
3.下列选项中,关于HDFS的架构说法正确的是()。
A、HDFS采用的是主备架构
B、HDFS采用的是主从架构
C、HDFS采用的是从备架构
D、以上说法均错误
4.下列选项中,若是哪个节点关闭了,就无法访问Hadoop集群()。
A、namenode
B、datanode
C、secondary namenode
D、yarn
5.下列选项中,Hadoop2.x版本独有的进程是()。
A、JobTracker
B、TaskTracker
C、NodeManager
D、NameNode
6.下列选项中,存放Hadoop配置文件的目录是()。
A、include
B、bin
C、libexec
D、etc
7.下列选项中,最早提出“大数据”这一概念的是()。
A、贝恩
B、麦肯锡
C、吉拉德
D、杰弗逊
8.HDFS中的Block默认保存()份。
A、3份
B、2份
C、1份
D、不确定
9.下列选项中,主要用于决定整个MapReduce程序性能高低的阶段是()。
A、MapTask
B、ReduceTask
C、分片、格式化数据源
D、Shuffle
10.在配置Linux网络参数时,固定IP地址是将路由协议配置为()。
A、static
B、dynamic
C、immutable
D、variable
| 得分 |
11.下列选项中,属于Hadoop优势的有()。
A、扩容能力强
B、可靠性
C、低效率
D、高容错性
12.下列哪项可以作为集群的管理?
A、Puppet
B、Pdsh
C、Cloudera Manager
D、Zookeeper
13.下列选项中,属于Hadoop版本系列的有()。
A、Hadoop4
B、Hadoop2
C、Hadoop1
D、Hadoop3
14.Hadoop提供的自定义配置时编辑的配置文件中,包含()。
A、core-site.xml
B、hdfs-site.xml
C、mapred-site.xml
D、yarn-site.xml
15.下列说法中,关于crontab表达式说法正确的是()。
A、通过执行crontab表达式可以执行定时任务
B、crontab表达式是由6个参数决定
C、Crontab表达式是由5个参数决定
D、以上说法均正确
16.在Zookeeper选举过程中,一共有四种状态,分别是()。
A、竞选状态
B、随从状态
C、观察状态
D、领导者状态
17.下列选项中,属于Sqoop指令的参数有()。
A、import
B、output
C、input
D、export
18.下列选项中,关于Hadoop集群说法正确的是()。
A、Hadoop集群包含Worker节点
B、Hadoop集群包含Master节点
C、Hadoop集群包含Slave节点
D、Hadoop集群包含HMaster节点
19.下列选项中,属于Google提出的处理大数据的技术手段有()。
A、MapReduce
B、MySQL
C、BigTable
D、GFS
20.Hive数据表插入数据时,insert( )table ……,括号中可使哪些关键字?
A、into
B、append
C、overwrite
| 得分 |
21.由于Hadoop是使用Java语言编写的,因此可以使用Java API操作Hadoop文件系统。( )
22.大数据提供的是一些描述性的信息,而创新还是需要人类自己实现。( )
23.带有倒排索引的文件我们称为倒排索引文件,简称倒排文件。( )
24.Hadoop集群执行完MapReduce程序后,会输出_SUCCESS和part-r-00000结果文件。( )
25.传统文件系统存储数据时,若文件太大,会导致上传和下载非常耗时。( )
26.通过使用虚拟机软件(如VMware Workstation),可以在同一台电脑上构建多个Linux虚拟机环境。( )
27.Zookeeper的选举机制,实际上是采用算法FastLeaderElection,投票数大于半数则胜出的机制。( )
28.在Hadoop的解压目录下的bin目录,存放的是Hadoop的配置文件。( )
29.Hadoop HA是集群中启动两台或两台以上机器充当NameNode,避免一台NameNode节点发生故障导致整个集群不可用的情况。( )
30.在安装配置windows平台hadoop,配置后直接运行是没有问题的。( )
| 得分 |
31.Flume的核心是把数据从数据源通过数据采集器(Source)收集过来,再将收集的数据通过【】汇集到指定的接收器(Sink)。
32.Sqoop连接器,它用于实现与各种关系型数据库的连接,从而实现数据的【】和导出操作。
33.Hive的安装模式分为【】、本地模式、远程模式三种形式。
34.VMware提供了两种类型的克隆,分别是完整克隆和【】。
35.Hadoop支持在【】系统和Windows系统上进行安装使用。
36.Hadoop的解压目录下【】目录存放的是Hadoop管理脚本,包含HDFS和YARN中各类服务的启动/关闭脚本。
37.一般关于日志文件产生都是根据【】而决定。
38.在部署Sqoop时,需要在sqoop-env.sh配置文件中添加【】环境。
39.当出现【】时,说明Hadoop集群已经被格式化成功。
40.Flume分为两个版本,分别是Flume-og、【】。
| 得分 |
41.启动Hive方式有哪些?
42.简述大数据在零售行业应用的具体表现。
43.简述event。
44.简述单点故障的产生。
45.简述如何检查Namenode是否正常运行。
答案
单选题(每题2分,共计20分)
1.D
2.D
3.B
4.A
5.C
6.D
7.B
8.A
9.D
10.A
多选题(每题2分,共计20分)
11.A,B,D
12.A,B,D
13.B,C,D
14.A,B,C,D
15.A,B
16.A,B,C,D
17.A,D
18.B,C
19.A,C,D
20.A,C
判断题(每题1分,共计10分)
21.对
22.对
23.对
24.对
25.对
26.对
27.对
28.错
29.对
30.错
填空题(每题2分,共计20分)
31.【缓冲通道(Channel)】
32.【导入】
33.【嵌入模式】
34.【链接克隆】
35.【Linux】
36.【sbin】
37.【业务】
38.【Hadoop】
39.【successfully formatted】
40.【Flume-ng】
简答题(每题6分,共计30分)
41.正确答案:1.bin/hive、2.bin/hiveserver2
42.正确答案:大数据在零售行业的具体表现有三个,分别是精准定位零售行业市场、支撑行业收益管理以及挖掘零售业新需求。
43.正确答案:它是Flume内部数据传输的基本单元。一个完整的event包含headers和body,其中headers包含了一些标识信息,而body中就是Flume收集到的数据信息。
44.正确答案:当存储数据块的服务器中突然有一台机器宕机,我们就无法正常的获取文件了,这个问题被称为单点故障
45.正确答案:如果要检查Namenode是否正常工作,使用Jps命令即可。
《大数据技术原理和应用操作B卷》试卷
| 总分 | 题型 | 单选题 | 多选题 | 判断题 | 填空题 | 简答题 |
| 题分 | ||||||
| 得分 |
| 得分 |
46.在配置Linux网络参数时,固定IP地址是将路由协议配置为()。
A、static
B、dynamic
C、immutable
D、variable
47.在MapReduce程序中,map()函数接收的数据格式是()。
A、字符串
B、整型
C、Long
D、键值对
48.下列选项中,用于获取Zookeeper所包含的信息的Shell命令是()。
A、ls
B、ls2
C、r
D、get
49.下列选项中,用于上传文件的Shell命令是()。
A、-ls
B、-mv
C、-cp
D、-put
50.下列选项中,哪一项是可以进行重启引导系统()。
A、OK
B、Cancel
C、Reboot
D、Apply
51.下列选项中,最早提出“大数据”这一概念的是()。
A、贝恩
B、麦肯锡
C、吉拉德
D、杰弗逊
52.下列选项中,关于HDFS的架构说法正确的是()。
A、HDFS采用的是主备架构
B、HDFS采用的是主从架构
C、HDFS采用的是从备架构
D、以上说法均错误
53.下列选项中,主要用于决定整个MapReduce程序性能高低的阶段是()。
A、MapTask
B、ReduceTask
C、分片、格式化数据源
D、Shuffle
54.下列选项中,Hadoop2.x版本独有的进程是()。
A、JobTracker
B、TaskTracker
C、NodeManager
D、NameNode
55.下列选项中,用于存放部署Hadoop集群服务器的是()。
A、namenode
B、datanode
C、rack
D、metadata
| 得分 |
56.下列选项中,属于Google提出的处理大数据的技术手段有()。
A、MapReduce
B、MySQL
C、BigTable
D、GFS
57.下列选项中,属于Hadoop版本系列的有()。
A、Hadoop4
B、Hadoop2
C、Hadoop1
D、Hadoop3
58.下列选项中,属于Hadoop优势的有()。
A、扩容能力强
B、可靠性
C、低效率
D、高容错性
59.下列哪项可以作为集群的管理?
A、Puppet
B、Pdsh
C、Cloudera Manager
D、Zookeeper
60.下列选项中,关于Hadoop集群说法正确的是()。
A、Hadoop集群包含Worker节点
B、Hadoop集群包含Master节点
C、Hadoop集群包含Slave节点
D、Hadoop集群包含HMaster节点
61.下列说法中,关于crontab表达式说法正确的是()。
A、通过执行crontab表达式可以执行定时任务
B、crontab表达式是由6个参数决定
C、Crontab表达式是由5个参数决定
D、以上说法均正确
62.在Zookeeper选举过程中,一共有四种状态,分别是()。
A、竞选状态
B、随从状态
C、观察状态
D、领导者状态
63.下列说法中,关于使用Java API操作HDFS说法正确的是()。
A、需要引入hadoop-common依赖
B、需要引入hadoop-hdfs依赖
C、需要引入hadoop-client依赖
D、以上说法均错误
.下列选项中,属于Zookeeper集群的角色有()。
A、Follower
B、Worker
C、Observer
D、Leader
65.下列选项中,属于Sqoop指令的参数有()。
A、import
B、output
C、input
D、export
| 得分 |
66.reduce()函数会将map()函数输出的键值对作为输入,把相同key值的value进行汇总,输出新的键值对( )
67.Zookeeper的选举机制,实际上是采用算法FastLeaderElection,投票数大于半数则胜出的机制。( )
68.Source组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec等。( )
69.SecureCRT是一款支持SSH的终端仿真程序,它能够在Windows操作系统上远程连接Linux服务器执行操作。( )
70.大数据在医疗行业中可以有效控制疾病的发生。( )
71.传统文件系统存储数据时,若文件太大,会导致上传和下载非常耗时。( )
72.伪分布式模式下的Hadoop功能与完全分布式模式下的Hadoop功能相同。( )
73.由于Hadoop是使用Java语言编写的,因此可以使用Java API操作Hadoop文件系统。( )
74.Hadoop HA是集群中启动两台或两台以上机器充当NameNode,避免一台NameNode节点发生故障导致整个集群不可用的情况。( )
75.HDFS目前不支持并发多用户的写操作,写操作只能在文件末尾追加数据。( )
| 得分 |
76.Flume的核心是把数据从数据源通过数据采集器(Source)收集过来,再将收集的数据通过【】汇集到指定的接收器(Sink)。
77.Hadoop发行版本分为开源社区版和【】。
78.数据仓库是面向【】、集成、【】和时变的数据集合,用于支持管理决策。
79.通过执行【】命令,查看该节点的Zookeeper角色。
80.HDFS是可以由【】组成,每个服务器机器存储文件系统数据的一部分。
81.如果使用Sqoop工具将MySQL表数据导入Hive数据仓库中,需要在sqoop-env.sh配置文件中配置【】。
82.传统的文件系统对海量数据的处理方式是将数据文件直接存储在【】台服务器上。
83.【】是Zookeeper集群工作的核心,也是事务性请求(写操作)的唯一调度和处理者。
84.马云曾经说过未来的时代将不是IT时代,而是【】时代。
85.启动Hadoop集群,主要是启动其内部包含的【】和YARN集群。
| 得分 |
86.简述如何检查Namenode是否正常运行。
87.简述event。
88.启动Hive方式有哪些?
.简述大数据在零售行业应用的具体表现。
90.简述Hive的排序种类及特点。
答案
单选题(每题2分,共计20分)
46.A
47.D
48.D
49.D
50.C
51.B
52.B
53.D
54.C
55.C
多选题(每题2分,共计20分)
56.A,C,D
57.B,C,D
58.A,B,D
59.A,B,D
60.B,C
61.A,B
62.A,B,C,D
63.A,B,C
.A,C,D
65.A,D
判断题(每题1分,共计10分)
66.对
67.对
68.对
69.对
70.错
71.对
72.错
73.对
74.对
75.对
填空题(每题2分,共计20分)
76.【缓冲通道(Channel)】
77.【商业版】
78.【主题】【非易实】
79.【zkServer.sh status】
80.【成百上千台服务器机器】
81.【Hive的安装路径】
82.【一】
83.【Leader】
84.【DT】
85.【HDFS集群】
简答题(每题6分,共计30分)
86.正确答案:如果要检查Namenode是否正常工作,使用Jps命令即可。
87.正确答案:它是Flume内部数据传输的基本单元。一个完整的event包含headers和body,其中headers包含了一些标识信息,而body中就是Flume收集到的数据信息。
88.正确答案:1.bin/hive、2.bin/hiveserver2
.正确答案:大数据在零售行业的具体表现有三个,分别是精准定位零售行业市场、支撑行业收益管理以及挖掘零售业新需求。
90.正确答案:1.order by 全局排序
2.sort by 非全局排序
3.distribute by hash散列分区,常和sort by同时使用。即分区又排序,需要设置mapreduce.job.reduces的个数
4.cluster by 当distribute by 和sort by的字段相同时,等同于cluster by.可以看做特殊的distribute + sort
