最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 科技 - 知识百科 - 正文

Hadoop简单介绍

来源:懂视网 责编:小采 时间:2020-11-09 16:07:47
文档

Hadoop简单介绍

Hadoop简单介绍:Hadoop简单介绍 一、Hadoop要解决的两个问题: 首先我们撇开Hadoop的历史、概念,我们先了解Hadoop是用来干啥的。 Hadoop解决两个问题: 1.海量数据存储 HDFS 2.海量的数据分析 MapReduce 二、Hadoop历史: 2002年的apache项目Nutch 20
推荐度:
导读Hadoop简单介绍:Hadoop简单介绍 一、Hadoop要解决的两个问题: 首先我们撇开Hadoop的历史、概念,我们先了解Hadoop是用来干啥的。 Hadoop解决两个问题: 1.海量数据存储 HDFS 2.海量的数据分析 MapReduce 二、Hadoop历史: 2002年的apache项目Nutch 20

Hadoop简单介绍 一、Hadoop要解决的两个问题: 首先我们撇开Hadoop的历史、概念,我们先了解Hadoop是用来干啥的。 Hadoop解决两个问题: 1.海量数据存储 HDFS 2.海量的数据分析 MapReduce 二、Hadoop历史: 2002年的apache项目Nutch 2003年Google发表了关于G

Hadoop简单介绍

一、Hadoop要解决的两个问题:

首先我们撇开Hadoop的历史、概念,我们先了解Hadoop是用来干啥的。

Hadoop解决两个问题:

1.海量数据存储 HDFS

2.海量的数据分析 MapReduce

二、Hadoop历史:

2002年的apache项目Nutch

2003年Google发表了关于GFS的论文

2004年Nutch的开发者开发了NDFS

2004年Google发表了关于MapReduce的论文

2005年MapR被引入了NDFS

2006年改名为Hadoop,NDFS创始人加入了yahoo,yahoo成立了一个专门的小组发展Hadoop

三、学习Hadoop的目的:

Hadoop是IT行业一个新的热点,是云计算的一个具体实现

Hadoop本身具有很高的技术含量,是IT工程师学习的首选

四、HDFS设计目标:

1.Very large files

2.Streaming data access

write-once read-many-times

3.Commodity hardware

五、Hadoop不适合的场景:

1.low-latency data access

2.Lots of small files

3.Multiple writers,arbitrary file modifications

六、HDFS架构:

(1)假设有一个 600G的文件a.txt,由于我们的Hadoop默认一个块的大小是64M,故将这600G文件以64M为一块分别存储到所有的集群的主机上,这样我们的读取速度将会大大提高。

(2)同一个文件块在不同的节点中有多个副本,这样当集群里某一文件块损坏或者数据丢失时,会在另外一个节点得到补充。另外这些副本和原本都是在一个配置文件里配置的,Hadoop会根据配置信息自动寻找备份的内容块。

(3)刚刚我们提到的配置文件,我们需要一个集中的地方保存文件的分块信息:

/home/asdf/a.txt.part1,3,(dm1,dm2,dm3)

/home/asdf/a.txt.part2,3,(dm2,dm3,dm4)

/home/asdf/a.txt.part3,3,(dm6,dm11,dm28)

这里边的3是指加上备份有三份。

(4)Block:一个文件分块,默认64M

NameNode:保存整个文件系统的目录信息,文件信息以及文件相应的分块信息。

DataNode:用于存储Blocks

HDFS的HA策略:NameNode一旦宕机,整个文件系统将无法工作。 如果NameNode中的数据丢失,整个文件系统也就丢失了。 2.x开始,HDFS支持NameNode的active-standy模式。

文档

Hadoop简单介绍

Hadoop简单介绍:Hadoop简单介绍 一、Hadoop要解决的两个问题: 首先我们撇开Hadoop的历史、概念,我们先了解Hadoop是用来干啥的。 Hadoop解决两个问题: 1.海量数据存储 HDFS 2.海量的数据分析 MapReduce 二、Hadoop历史: 2002年的apache项目Nutch 20
推荐度:
标签: 介绍 解决 简单
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top