你造吗?分布式文件系统的数据处理应用程序的框架-MTV学习库

它是一个开源软件框架。使用它构建的应用程序分布在运行大型商业数据集的计算机集群中。商用计算机价格便宜且广泛使用。这些主要用于在低成本计算上获得更大的计算能力。你建造什么？计算机集群由一组多个处理单元（存储磁盘+处理器）组成，这些处理单元彼此连接并充当单个系统。

s 成分

下图显示了生态系统的各个组成部分

由两个子项目组成 -

：它是一种计算模型和软件架构，编写应用程序并在其上运行。这些程序能够在大型计算节点集群上并行处理大量数据。

HDFS（文件）：HDFS 处理应用程序的存储部分。该应用程序使用 HDFS 中的数据。 HDFS创建数据块的多个副本并将它们分发到集群中的计算节点。这种分布可以为应用程序提供可靠且极其快速的计算。

尽管该术语最出名的是 HDFS，但相关项目也在分布式计算和大规模数据处理的背景下使用该术语。其他相关项目包括：Hive、HBase、Sqoop、Flume 和 .

功能

• 适合大数据分析

由于大数据本质上往往是分布式和非结构化的，因此集群最适合大数据的分析。因为它处理到计算节点的逻辑流（而不是实际数据），所以消耗的网络带宽更少。这个概念称为数据文化概念，它可以帮助提高基于应用程序的效率。

• 可扩展性

通过添加额外的集群节点，可以轻松地将集群扩展到任何程度，并允许大数据的增长。此外，扩展不需要修改应用程序逻辑。

• 容错能力

该生态系统可以将输入数据复制到其他集群节点。这样，如果集群中的一个节点发生故障，仍然可以使用存储在另一个集群节点上的数据继续进行数据处理。

在网络拓扑中

随着集群规模的增长，网络拓扑（布局）会影响集群性能。除了性能之外，还需要关心高可用性和故障处理。为了实现这种集群构建，利用了网络拓扑。

通常，网络带宽是任何网络需要考虑的重要因素。然而，测量带宽可能很困难，因为网络表示为树，并且集群节点之间的树（跳数）距离是一个重要因素。这里，两个节点之间的距离等于到它们最近的共同祖先的总距离。

集群由数据中心、机架和实际执行作业的节点组成。这里，数据中心包括机架，机架由节点组成。进程的可用网络带宽根据进程的位置而变化。也就是说，可用带宽变得更小，因为 -

爱情电影网里的电影怎么用苹果手机看电影别问问就是8