您的位置  > 互联网

你造吗?分布式文件系统的数据处理应用程序的框架

它是一个开源软件框架。 使用它构建的应用程序分布在运行大型商业数据集的计算机集群中。 商用计算机价格便宜且广泛使用。 这些主要用于在低成本计算上获得更大的计算能力。 你建造什么? 计算机集群由一组多个处理单元(存储磁盘+处理器)组成,这些处理单元彼此连接并充当单个系统。

s 成分

下图显示了生态系统的各个组成部分

由两个子项目组成 -

:它是一种计算模型和软件架构,编写应用程序并在其上运行。 这些程序能够在大型计算节点集群上并行处理大量数据。

HDFS(文件):HDFS 处理应用程序的存储部分。 该应用程序使用 HDFS 中的数据。 HDFS创建数据块的多个副本并将它们分发到集群中的计算节点。 这种分布可以为应用程序提供可靠且极其快速的计算。

尽管该术语最出名的是 HDFS,但相关项目也在分布式计算和大规模数据处理的背景下使用该术语。 其他相关项目包括:Hive、HBase、Sqoop、Flume 和 .

功能

• 适合大数据分析

由于大数据本质上往往是分布式和非结构化的,因此集群最适合大数据的分析。 因为它处理到计算节点的逻辑流(而不是实际数据),所以消耗的网络带宽更少。 这个概念称为数据文化概念,它可以帮助提高基于应用程序的效率。

• 可扩展性

通过添加额外的集群节点,可以轻松地将集群扩展到任何程度,并允许大数据的增长。 此外,扩展不需要修改应用程序逻辑。

• 容错能力

该生态系统可以将输入数据复制到其他集群节点。 这样,如果集群中的一个节点发生故障,仍然可以使用存储在另一个集群节点上的数据继续进行数据处理。

在网络拓扑中

随着集群规模的增长,网络拓扑(布局)会影响集群性能。 除了性能之外,还需要关心高可用性和故障处理。 为了实现这种集群构建,利用了网络拓扑。

通常,网络带宽是任何网络需要考虑的重要因素。 然而,测量带宽可能很困难,因为网络表示为树,并且集群节点之间的树(跳数)距离是一个重要因素。 这里,两个节点之间的距离等于到它们最近的共同祖先的总距离。

集群由数据中心、机架和实际执行作业的节点组成。 这里,数据中心包括机架,机架由节点组成。 进程的可用网络带宽根据进程的位置而变化。 也就是说,可用带宽变得更小,因为 -