海量数据之哈希

适用范围：快速查找，删除的基本数据结构，通常需要总数据量可以放入内存

基本原理及要点：

hash函数选择，针对字符串，整数，排列，具体相应的hash方法。

碰撞处理，一种是open hashing，也称为拉链法；另一种就是closed hashing，也称开地址法，opened addressing。

(1)开放定址法

hi=(h(key)+di) mod m i=1,2,...,k(k<=m-1)

其中m为表长，di为增量序列

如果di值可能为1,2,3,...m-1，称线性探测再散列。

如果di取值可能为1,-1,2,-2,4,-4,9,-9,16,-16,...k*k,-k*k(k<=m/2)

称二次探测再散列。

如果di取值可能为伪随机数列。称伪随机探测再散列。开放地址法堆装填因子的要求

开放定址法要求散列表的装填因子α≤l，实用中取α为0.5到0.9之间的某个值为宜。

(2)二次探查法(quadratic probing)

二次探查法的探查序列是：

hi=(h(key)+i*i)％m 0≤i≤m-1 //即di=i2

即探查序列为d=h(key)，d+12，d+22，…，等。

该方法的缺陷是不易探查到整个散列空间。

(3)双重散列法(double hashing)

该方法是开放定址法中最好的方法之一，它的探查序列是：

hi=(h(key)+i*h1(key))％m 0≤i≤m-1 //即di=i*h1(key)

即探查序列为：

d=h(key)，(d+h1(key))％m，(d+2h1(key))％m，…，等。

该方法使用了两个散列函数h(key)和h1(key)，故也称为双散列函数探查法。

(4)拉链法

拉链法解决冲突的做法是：将所有关键字为同义词的结点链接在同一个单链表中。若选定的散列表长度为m，则可将散列表定义为一个由m个头指针组成的指针数组t[0..m-1]。凡是散列地址为i的结点，均插入到以t为头指针的单链表中。t中各分量的初值均应为空指针。在拉链法中，装填因子α可以大于1，但一般均取α≤1。

(5)建立一个公共溢出区

假设哈希函数的值域为[0,m-1],则设向量hashtable[0..m-1]为基本表，另外设立存储空间向量overtable[0..v]用以存储发生冲突的记录。

扩展：

d-left hashing
中的d是多个的意思，我们先简化这个问题，看一看2-left hashing。2-left hashing指的是将一个哈希表分成长度相等的两半，分别叫做T1和T2，给T1和T2分别配备一个哈希函数，h1和h2。在存储一个新的key时，同时用两个哈希函数进行计算，得出两个地址h1[key]和h2[key]。这时需要检查T1中的h1[key]位置和T2中的h2[key]位置，哪一个位置已经存储的（有碰撞的）key比较多，然后将新key存储在负载少的位置。如果两边一样多，比如两个位置都为空或者都存储了一个key，就把新key 存储在左边的T1子表中，2-left也由此而来。在查找一个key时，必须进行两次hash，同时查找两个位置。

问题实例：

1).海量日志数据，提取出某日访问百度次数最多的那个IP。

IP的数目还是有限的，最多2^32个，所以可以考虑使用hash将ip直接存入内存，然后进行统计。

海量数据之哈希

分类

近期文章

其他操作

归档

链接