2.3 Apache Hadoop、HDFS - HDFS分布式文件系统基础
来源:http://www.tudoupe.com时间:2022-04-22
文章目录
- HDFS是分布式文件系统的基础。
- 文件系统通常称为分发文件系统,是一种文件管理系统。
- 文件系统定义
- 传统常见的文件系统
- 数据、元数据
- 思考
- 大规模数据储存的困难
- 思考
- 情况互动:分布式储存系统核心属性和功能含义
- I. 分配储存的惠益
- 二、重要的数据记录职能
- 三、分块存储好处
- 四:副本机制的作用
- 总结
- 二、HDFS简介
- HDFS简介
- 三. HDFS 初步发展和设计目标
- HDFS起源发展
- HDFS设计目标
- 四. HDFS应用环境
- 适合场景
- 不适合场景
- 五. HDFS的主要特点
- (1)主从架构
- (2)分块存储
- (3)副本机制
- (4)元数据管理
- (5)namespace
- (6)数据块存储
- 参考
HDFS是分布式文件系统的基础。
文件系统通常称为分发文件系统,是一种文件管理系统。
文件系统定义
- 文件系统是一种储存和组织数据的方式,可以储存、分级组织、存取和获取数据,同时也使用户更容易查阅和检索文件。
- 文件系统以树目录的抽象逻辑概念取代硬盘等物理设备数据区块的概念,用户不需要在有硬盘的数据底部烦恼,而只需记住文件所属的目录和文件名;
- 文件系统经常利用硬盘驱动器和光盘等存储装置来跟踪设备中文件的实际位置。

传统常见的文件系统
- “常规共同文件系统”一词是指没有在底部无数计算机上进行的单机文件系统,例如Windows操作系统的文件系统、Linux的文件系统、FTP文件系统等等。
- 这些文件系统都具有以下共同特性:
- (a) 抽象的目录树结构,树木从/根目录中分流。
- 树木中的节点分为两类:目录和文件。
- 节点路径是同类路径之一, 从根目录开始 。
- “常规共同文件系统”一词是指没有在底部无数计算机上进行的单机文件系统,例如Windows操作系统的文件系统、Linux的文件系统、FTP文件系统等等。
- 这些文件系统都具有以下共同特性:
- (a) 抽象的目录树结构,树木从/根目录中分流。
- 树木中的节点分为两类:目录和文件。
- 节点路径是同类路径之一, 从根目录开始 。
数据、元数据
- 数据
它指的是内容本身,如文件、电影、照片等,这些内容最终被保存在软盘等存储介质中,普通用户不需要担心软盘等;相反,用户只需根据目录树检查增删内容,文件系统处理实际数据处理。 - 元数据
为了记录数据,元数据(元数据)通常被称为解释性数据。
文件系统的元数据是指文件大小、最后一次更改时间、底储存位置、属性、用户归属、权利等信息。
思考
- 在大数据方面,标准文件储存系统有什么问题?
大规模数据储存的困难
- 成本高
传统储存硬件的利用率低,对设备的初始投资以及随后的维护和升级开支昂贵。

- 如何提高计算分析的效率
常规储存手段数据:储存是储存,计算是计算,当处理数据的时候,数据是移动的。
工艺和数据储存是由许多技术制造商完成的,不能有机地连接。 - 性能低
为使数据量大和开发量大,不能过分强调单一节点一/O性能瓶颈。 - 可扩展性差
无法迅速部署和弹性扩大,动态放大和可扩缩费用高得令人望而却步,技术无法实施。
思考
- 面对大规模数据储存的设想,典型的文件系统如何处理大数据储存?
- 一个能够存储大规模数据的系统应该追求什么? 通行证? 工作表现呢? 安全? 效能呢?
- 你会如何开发一个存储系统软件 来处理巨大的数据存储?
情况互动:分布式储存系统核心属性和功能含义
- 分配储存系统的基本特点
• 分布式存储
• 元数据记录
• 分块存储
• 副本机制
I. 分配储存的惠益
- 问题是,单机储存中存在大量数据和瓶颈。
- 解决:
单机的垂直增长:磁盘不足以增加磁盘,而且存在瓶颈。
多有机横向扩展:机器不足以添加机器,理论上无限增长
二、重要的数据记录职能
- 由于文件散布在若干工作站,很难找到这些文件。
- 决议:元数据记录和储存地点信息中的档案,快速档案地点

三、分块存储好处
- 庞大的文件需要取消存储以及浪费的上传和下载。
- 解决:文件块储存在各种计算机上,通过街区平行改进性能。

四:副本机制的作用
- 问题:硬件故障是不可避免的,数据丢失司空见惯。
- 决心:不同的机器设置备份、多余储存、数据安全

总结
- 分散储存的好处是什么?
无限扩展允许大型数据储存。 - 元数据记录的目的是什么?
快速查找文件的位置 。 - 使用文件块存储的好处是什么?
街区平行行动效率的提高 - 创建副本备份的目的是什么?
有冗余的安全数据存储
二、HDFS简介
HDFS简介
- HDFS (Hadoop 分布式文件系统) 是 Hadoop 分布式文件系统的缩略语 。
- 这是Apache Hadop的关键组成部分之一,它作为分布存储服务在海量数据生态系统底部运作。 也可以认为海量数据最初要应对的挑战就是大量数据存储。

- HDFS主要关注大量数据的储存问题,“分配”一词是指HDFS是一个跨越许多机器的储存系统。
- HDFS是一个分布式文件系统,可以使用标准硬件运行,极易发生故障,非常适合拥有庞大数据集的应用程序,并且非常适合存储大量数据(例如,gmassive是一个分布式文件系统,可以使用标准硬件运行,极易发生故障,非常适合拥有庞大数据集的应用程序,并且非常适合存储大量数据(例如,TB和PB)。
- HDFS用几台机器储存文件,并提供一个单一的存取接口,类似于传统文件系统的使用方式。

三. HDFS 初步发展和设计目标
HDFS起源发展
- Nutch项目由Doug Cutting指导, Nutch计划生产一个庞大的全网络搜索引擎, 包括网络剪切、索引、查询等等。
- 随着爬行动物所记录的在线网页数量的增加,出现了严重的扩大规模问题,例如如何处理数十亿页的存储和索引化问题。
- 谷歌于2003年编写了一份研究报告,提出了解决这一问题的可能办法。
分布式文件系统(GFS)是一个档案系统,可用于处理大型网页的存储。 - Nutch 开发商完成了相应的开放源码 HDFS 实现后从 Nutch 撤回,而 MapReduce 成为一个独立的项目HADEOP。

HDFS设计目标
- 硬件故障司空见惯,而HDFS可能由数百个服务器组成,每个部件都容易发生故障,因此,HDFS的主要结构性目标是检测故障和自动快速恢复。
- HDFS应用软件主要读取流中的数据(Strameing Data Access)。HDFS是为批量处理而设计的,而不是交互式用户使用。与数据存取的响应时间相比,对数据存取量高的重视程度更大。
- HDFS通常的文件大小从GB到TB不等。所以,对HDFS进行了修改,以容纳巨大的文件(大型数据集)。它应该有一个高聚合数据带宽。成百上千个节点可以一组支持。一组文件还应能够容纳数万层文件。
- 大多数 HDFS 应用程序都需要基于写一读多原则的文件存取模型。 一旦文件创建、写入和关闭,就不需要修改。 这一假设简化了数据一致性问题,并允许高流量的数据存取。
- 移动计算比传输数据要便宜。 想要的计算应用越接近于它所使用的数据, 效率就越高。 将计算方法移近数据显然比将数据移近应用程序要高。
- 氢氟烷烃系统的设计是便于从一个平台转移到另一个平台,这有助于氢氟烷烃系统迅速被采纳,成为各种应用的首选平台。
四. HDFS应用环境
适合场景
大文件
数据流式访问
一次写入多次读取
个人电脑成本低 部署成本低
高容错
不适合场景
小文件
数据交互式访问
频繁任意修改
低延迟处理
五. HDFS的主要特点
- 主从架构
- 分块存储
- 副本机制
- 元数据记录
- 命名空间( 抽取统一的目录树结构)

(1)主从架构
- HDFS集群是一个主/奴隶总结构集群。
- 典型的HDFS群集由一个节点和若干数据节点组成。
- Namenode是主要的 HDFS 节点,而Datanode是职责分离的HDFS节点,并协调分发文件的储存服务。
- 官方图表由主要的五向模式组成,其中五个位于各种服务器上,由两个机库(Rack)连接。

(2)分块存储
- HDFS文件被实际封塞(路障),默认尺寸为128M(134217728),任何低于128M的文件都被视为一块。
- 配置选项 hdfs- default. in xml: dfs. block size 可用于确定块大小 。

(3)副本机制
- 所有块文件都会有副本。 当文件创建时可以给出副本因数, 也可以在创建后根据命令进行调整 。
- 选项 dfs. 复制决定副本的数量,其默认值为3份,即除3份外,再增加2份。

(4)元数据管理
Namenode 管理 HDFS 中的两种元数据类型 :
- 文件自身属性信息
文件名、 权限、 修改时间、 文件大小、 复制系数和数据块大小都是要考虑的变量 。 - 文件块位置映射信息
文件块块和数据节点之间的地图信息被记录,即连接到哪个节点的地图信息被记录

(5)namespace
- 用户可以在这些目录中构建目录并随后存储文件。 文件系统名称空间和大多数当前文件系统的等级相似: 用户可以创建、 重新传输、 移动或重命名文件 。
- Namenode 维护文件系统的名称空间命名空间, 对命名空间或文件系统特性的任何更改都由 Namenode 记录 。
- 使用 hdfs:// namenode: port/ dira/ dir- b/ dir- c/ file 等路径访问文件的客户端。 给 Data 提供一个抽象目录树 。

(6)数据块存储
- DataNode节点负责各块文件的专门储存管理。
- 每个区块可以储存在不止一个数据节点上。

参考
资料来源:黑马程序员 - 大数据哈托普介绍。
相关新闻
- 2023-04-16 2台电脑怎么共享(2台电脑怎么共享
- 2023-04-16 主板检测卡代码(电脑主板检测卡代
- 2023-04-16 dnf未响应(dnf未响应老是上不去)
- 2023-04-16 ppoe(pppoe拨号上网)
- 2023-04-16 网速不稳定(网速不稳定是路由器的
- 2023-04-16 wds状态(Wds状态成功)
- 2023-04-16 光标键(光标键不动了怎么办)
- 2023-04-16 电脑提速(电脑提速100倍的方法)
- 2023-04-16 切换用户(切换用户怎么切换回来
- 2023-04-16 数据包是什么(产品数据包是什么
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
