点击下载
本文文档

当前位置：首页 - 正文

Hash_算法

来源：动视网责编：小OO 时间：2025-10-01 02:11:57

Hash_算法

哈希查找因使用哈希 (Hash) 函数而得名，哈希函数又叫散列函数，它是一种能把关键字映射成记录存贮地址的函数。常用HASH函数·直接取余法：f(x):=xmodmaxM;maxM一般是不太接近2^t的一个质数。·乘法取整法：f(x):=trunc((x/maxX)*maxlongit)modmaxM，主要用于实数。·平方取中法：f(x):=(x*xdiv1000)mod1000000);平方后取中间的，每位包含信息比较多。emule是基于P2P（Peer-to-peer的缩写，指的是点对点的

推荐度：

点击下载本文 文档为doc格式

导读哈希查找因使用哈希 (Hash) 函数而得名，哈希函数又叫散列函数，它是一种能把关键字映射成记录存贮地址的函数。常用HASH函数·直接取余法：f(x):=xmodmaxM;maxM一般是不太接近2^t的一个质数。·乘法取整法：f(x):=trunc((x/maxX)*maxlongit)modmaxM，主要用于实数。·平方取中法：f(x):=(x*xdiv1000)mod1000000);平方后取中间的，每位包含信息比较多。emule是基于P2P（Peer-to-peer的缩写，指的是点对点的

哈希查找因使用哈希 (Hash) 函数而得名，哈希函数又叫散列函数，它是一种能把关键字映射成记录存贮地址的函数。

常用HASH函数

　　·直接取余法：f(x):= x mod maxM ; maxM一般是不太接近 2^t 的一个质数。

　　·乘法取整法：f(x):=trunc((x/maxX)*maxlongit) mod maxM，主要用于实数。

·平方取中法：f(x):=(x*x div 1000 ) mod 1000000); 平方后取中间的，每位包含信息比较多。

emule是基于P2P （Peer-to-peer的缩写，指的是点对点的意思的软件），它采用了"多源文件传输协议”(MFTP，the Multisource FileTransfer Protocol)。在协议中，定义了一系列传输、压缩和打包还有积分的标准，emule 对于每个文件都有md5-hash的算法设置，这使得该文件独一无二，并且在整个网络上都可以追踪得到。

UserHash

当我们在第一次使用emule的时候，emule会自动生成一个值，这个值也是唯一的，它是我们在emule世界里面的标志

常用的构造散列函数的方法

散列函数能使对一个数据序列的访问过程更加迅速有效，通过散列函数，数据元素将被更快地定位ǐ

　　1．直接寻址法：取关键字或关键字的某个线性函数值为散列地址。即H(key)=key或H(key) = a·key + b，其中a和b为常数（这种散列函数叫做自身函数）

　　2．数字分析法

　　3．平方取中法

　　4．折叠法

　　5．随机数法

6．除留余数法：取关键字被某个不大于散列表表长m的数p除后所得的余数为散列地址。即 H(key) = key MOD p,p<=m。不仅可以对关键字直接取模，也可在折叠、平方取中等运算之后取模。对p的选择很重要，一般取素数或m，若p选的不好，容易产生同义词

3.0 平法取中

假定表中各关键字是由字母组成的，用二位数字的整数 01 ～ 26 表示对应的 26 个英文字母在计算机中的内部编码，则使用平方取中法计算 KEYA ， KEYB ， AKEY ， BKEY 的散列地址可得：

关键字 K K 的内部编码 K 2 H(K)

KEYA 11052501 122157778355001 778

KEYB 11052502 122157800460004 800

AKEY 01110525 001233265775625 265

BKEY 02110525 004454315775625 315

平方之后，取左起第 7 ～ 9 位作为散列地址

6.0.除留余数法

这种方法是用模运算 (%) 得到的。设给出的关键字值为 K ，存储区单元数为 m ，则用一个小于 m 的质数 P 去除 K ，得到的余数为 R ，即： R ＝ K % P 。如果 R 落在存储区地址范围内，则 R 就取为哈希函数值 ( 散列地址 ) ；否则，再用一个线性数求出哈希函数值。

【例】有一组关键字从 000001 到 859999 ，指定的存储区地址为 1000000 ～ 1005999 ，即 m＝ 6000 ，可选 P ＝ 599 ，若要转换关键字 K ＝ 172148 ，则有：

R ＝ 172148 % 599 ＝ 4176

因 R 不在指定的地址范围内，所以，取哈希函数为：

H(K) ＝ 1000000 ＋ R

故有：

H(K) ＝ H(172148) ＝ 1004176

这样就把关键字 K 直接转换成存储地址了

处理冲突的方法

　　1．开放寻址法；Hi=(H(key) + di) MOD m,i=1,2,…，k(k<=m-1)，其中H(key)为散列函数，m为散列表长，di为增量序列，可有下列三种取法：

　　1． di=1,2,3,…，m-1，称线性探测再散列；

　　2． di=1^2,(-1)^2,2^2,(-2)^2,(3)^2,…，±(k)^2,(k<=m/2)称二次探测再散列；

　　3． di=伪随机数序列，称伪随机探测再散列。==

　　2．再散列法：Hi=RHi(key),i=1,2,…，k RHi均是不同的散列函数，即在同义词产生地址冲突时计算另一个散列函数地址，直到冲突不再发生，这种方法不易产生“聚集”，但增加了计算时间。

　　3．链地址法(拉链法)

4．建立一个公共溢出区

Hashmap

基于哈希表的 Map 接口的实现。此实现提供所有可选的映射操作，并允许使用 null 值和 null 键。（除了非同步和允许使用 null 之外，HashMap 类与 Hashtable 大致相同。）

HashMap 的实例有两个参数影响其性能：初始容量和加载因子。容量是哈希表中桶的数量，初始容量只是哈希表在创建时的容量。加载因子是哈希表在其容量自动增加之前可以达到多满的一种尺度。当哈希表中的条目数超出了加载因子与当前容量的乘积时，则要对该哈希表进行 rehash 操作（即重建内部数据结构），从而哈希表将具有大约两倍的桶数.

通常，默认加载因子 (.75) 在时间和空间成本上寻求一种折衷。加载因子过高虽然减少了空间开销，但同时也增加了查询成本（在大多数 HashMap 类的操作中，包括 get 和 put 操作，都反映了这一点）。在设置初始容量时应该考虑到映射中所需的条目数及其加载因子，以便最大限度地减少 rehash 操作次数。如果初始容量大于最大条目数除以加载因子，则不会发生 rehash 操作。

　　如果很多映射关系要存储在 HashMap 实例中，则相对于按需执行自动的 rehash 操作以增大表的容量来说，使用足够大的初始容量创建它将使得映射关系能更有效地存储

该方法的基本思想是：

　将散列表T[0..m-1]看成是一个循环向量，若初始探查的地址为d(即h(key)=d)，则最长的探查序列为：

d，d+l，d+2，…，m-1，0，1，…，d-1

　即:探查时从地址d开始，首先探查T[d]，然后依次探查T[d+1]，…，直到T[m-1]，此后又循环到T[0]，T[1]，…，直到探查到T[d-1]为止。

探查过程终止于三种情况：

　(1)若当前探查的单元为空，则表示查找失败（若是插入则将key写入其中）；

　 (2)若当前探查的单元中含有key，则查找成功，但对于插入意味着失败；

　(3)若探查到T[d-1]时仍未发现空单元也未找到key，则无论是查找还是插入均意味着失败(此时表满)。

利用开放地址法的一般形式，线性探查法的探查序列为：

hi=(h(key)+i)％m 0≤i≤m-1 //即di=i

用线性探测法处理冲突，思路清晰，算法简单，但存在下列缺点：

　　① 处理溢出需另编程序。一般可另外设立一个溢出表，专门用来存放上述哈希表中放不下的记录。此溢出表最简单的结构是顺序表，查找方法可用顺序查找。

　　② 按上述算法建立起来的哈希表，删除工作非常困难。假如要从哈希表 HT 中删除一个记录，按理应将这个记录所在位置置为空，但我们不能这样做，而只能标上已被删除的标记，否则，将会影响以后的查找。

　　③ 线性探测法很容易产生堆聚现象。所谓堆聚现象，就是存入哈希表的记录在表中连成一片。按照线性探测法处理冲突，如果生成哈希地址的连续序列愈长 ( 即不同关键字值的哈希地址相邻在一起愈长 ) ，则当新的记录加入该表时，与这个序列发生冲突的可能性愈大。因此，哈希地址的较长连续序列比较短连续序列生长得快，这就意味着，一旦出现堆聚 ( 伴随着冲突 ) ，就将引起进一步的堆聚。

（2）线性补偿探测法

线性补偿探测法的基本思想是：

　　将线性探测的步长从 1 改为 Q ，即将上述算法中的 j ＝ (j ＋ 1) % m 改为： j ＝ (j ＋Q) % m ，而且要求 Q 与 m 是互质的，以便能探测到哈希表中的所有单元。

【例】 PDP-11 小型计算机中的汇编程序所用的符合表，就采用此方法来解决冲突，所用表长 m＝ 1321 ，选用 Q ＝ 25 。

（3）随机探测

随机探测的基本思想是：

　　将线性探测的步长从常数改为随机数，即令： j ＝ (j ＋ RN) % m ，其中 RN 是一个随机数。在实际程序中应预先用随机数发生器产生一个随机序列，将此序列作为依次探测的步长。这样就能使不同的关键字具有不同的探测次序，从而可以避免或减少堆聚。基于与线性探测法相同的理由，在线性补偿探测法和随机探测法中，删除一个记录后也要打上删除标记。

2、拉链法

（1）拉链法解决冲突的方法

　拉链法解决冲突的做法是：将所有关键字为同义词的结点链接在同一个单链表中。若选定的散列表长度为m，则可将散列表定义为一个由m个头指针组成的指针数组T[0..m-1]。凡是散列地址为i的结点，均插入到以T[i]为头指针的单链表中。T中各分量的初值均应为空指针。在拉链法中，装填因子α可以大于1，但一般均取α≤1。

（2）拉链法的优点

与开放定址法相比，拉链法有如下几个优点：

　　①拉链法处理冲突简单，且无堆积现象，即非同义词决不会发生冲突，因此平均查找长度较短；

　　②由于拉链法中各链表上的结点空间是动态申请的，故它更适合于造表前无法确定表长的情况；

　　③开放定址法为减少冲突，要求装填因子α较小，故当结点规模较大时会浪费很多空间。而拉链法中可取α≥1，且结点较大时，拉链法中增加的指针域可忽略不计，因此节省空间；

　　④在用拉链法构造的散列表中，删除结点的操作易于实现。只要简单地删去链表上相应的结点即可。而对开放地址法构造的散列表，删除结点不能简单地将被删结点的空间置为空，否则将截断在它之后填人散列表的同义词结点的查找路径。这是因为各种开放地址法中，空地址单元(即开放地址)都是查找失败的条件。因此在用开放地址法处理冲突的散列表上执行删除操作，只能在被删结点上做删除标记，而不能真正删除结点。

（3）拉链法的缺点

　拉链法的缺点是：指针需要额外的空间，故当结点规模较小时，开放定址法较为节省空间，而若将节省的指针空间用来扩大散列表的规模，可使装填因子变小，这又减少了开放定址法中的冲突，从而提高平均查找速度

Hash_算法

哈希查找因使用哈希 (Hash) 函数而得名，哈希函数又叫散列函数，它是一种能把关键字映射成记录存贮地址的函数。常用HASH函数·直接取余法：f(x):=xmodmaxM;maxM一般是不太接近2^t的一个质数。·乘法取整法：f(x):=trunc((x/maxX)*maxlongit)modmaxM，主要用于实数。·平方取中法：f(x):=(x*xdiv1000)mod1000000);平方后取中间的，每位包含信息比较多。emule是基于P2P（Peer-to-peer的缩写，指的是点对点的

推荐度：

点击下载本文 文档为doc格式

热门焦点

Hash_算法

Hash_算法

Hash_算法

最新推荐

猜你喜欢

热门推荐