您的位置  > 互联网

大数据工程师必备技能:常用的海量数据处理方法

1. 绽放

它是一种二进制向量数据结构,具有良好的空间效率和时间效率,可用于检测元素是否属于集合。 这种方法的优点是它的插入和查询次数是恒定的,并且查询元素但不保存元素本身。 因此,它具有很好的安全性,但由于其算法的原因,其准确率稍低,可以判定不存在的数据一定不存在,而肯定存在的数据也可能不存在。 适用于可以容忍低错误率的情况。

2.哈希值

哈希是哈希函数。 它是将任意长度的消息压缩成固定长度的消息摘要的函数。 根据不同的处理要求,有不同的Hash函数。 对于字符串、整数和排列也有相应的函数。 哈希方法。 常用的Hash构造方法有直接寻址法、数字分析法、平方中法、折叠法、随机数法、除法余数法等。

3.

它是一种使用数组来指示某些数据是否存在的方法。 可以快速查找、判断、删除数据。 一般来说,数据范围小于int的10倍。 Bloom可以看作是正确的延伸。

4. 堆

堆是计算机科学中一种特殊数据结构的统称。 集合名是一个数组对象,可以看作是一棵树。 原理是先从待找的n个数中找出前k个数,构建一个小顶堆。 ,然后依次读取后面的元素,并与小顶堆的顶部进行比较。 如果当前元素较小或者相等,则继续读取后面的元素; 如果当前元素较大,则用当前元素替换堆顶元素,然后调整较小的顶元素。 顶堆。找到前 k 个最小的堆为最大堆,找到最大的 k 个最大的堆为最小堆,找到前 k 个最大的堆为双堆。

中位数。

5.双桶

双层桶不是一种数据结构,而是一种算法思想,类似于分而治之的思想。 由于元素范围很大,无法使用直接寻址表,因此通过多次划分逐步确定范围,最终在可接受的范围内。 双桶法一般适用于求第k大的数、求中位数、求不重复或重复的数。

6.数据库优化方法

大量数据存储在数据库中。 如何从数据库中提取有用的信息需要使用数据库优化方法。 常见的数据库优化方法包括数据分区、索引、缓存机制、批处理、查询优化和使用采样数据。 数据挖掘等

7.倒排索引

倒排索引是目前搜索引擎公司最常用的搜索引擎存储方式。 用于存储全文检索时一个词在一个文档或一组文档中的存储位置的映射。 在处理复杂的多关键字时,可以在倒排表中完成查询的并、交等逻辑运算,得到结果后即可访问结果。 这样就可以将记录的查询转换为地址集操作,而不必对每个地址集进行操作。 随机访问记录以提高搜索速度。

8. 外部分拣

外部排序是对大文件的排序。 由于内存限制,无法将所有待排序的内容一次性读入内存进行排序。 它需要内存和外部内存之间进行多次数据交换才能对整个文件进行排序。 目的是形成整个文件的单个合并段。

外部排序适用于大数据的排序和去重,但外部排序的缺点是消耗大量IO,效率不高。

9. 特里树

Trie树是一种用于快速字符串检索的多树结果。 原理是利用字符串的公共前缀来减少空间开销。 常被搜索引擎系统用来进行文档词频统计。 优点是:最大限度减少不必要的字符串比较,查询效率比哈希表高。 适合数据量大且重复,但数据类型较小,可以放在内存中的情况。

10.

它是云计算的核心技术之一。 它是一种简化并行计算的分布式编程模型。 其主要目的是让大型集群系统能够对大数据集进行并行工作,用于大规模数据的并行计算。

以上是处理海量数据常用的方法。 您可以根据要处理的数据的特点来选择和使用它们!