哈希表实现

7

我刚买了一本书《C Interfaces and Implementations》。 在第一章中,它实现了一个"Atom"结构,示例代码如下:

#define NELEMS(x) ((sizeof (x))/(sizeof ((x)[0])))
static struct atom {
    struct atom *link;
    int len;
    char *str;
} *buckets[2048];
static unsigned long scatter[] = {
2078917053, 143302914, 1027100827, 1953210302, 755253631, 2002600785,
1405390230, 45248011, 1099951567, 433832350, 2018585307, 438263339,
813528929, 1703199216, 618906479, 573714703, 766270699, 275680090,
1510320440, 1583583926, 1723401032, 1965443329, 1098183682, 1636505764,
980071615, 1011597961, 643279273, 1315461275, 157584038, 1069844923,
471560540, 89017443, 1213147837, 1498661368, 2042227746, 1968401469,
1353778505, 1300134328, 2013649480, 306246424, 1733966678, 1884751139,
744509763, 400011959, 1440466707, 1363416242, 973726663, 59253759,
1639096332, 336563455, 1642837685, 1215013716, 154523136, 593537720,
704035832, 1134594751, 1605135681, 1347315106, 302572379, 1762719719,
269676381, 774132919, 1851737163, 1482824219, 125310639, 1746481261,
1303742040, 1479089144, 899131941, 1169907872, 1785335569, 485614972,
907175364, 382361684, 885626931, 200158423, 1745777927, 1859353594,
259412182, 1237390611, 48433401, 1902249868, 304920680, 202956538,
348303940, 1008956512, 1337551289, 1953439621, 208787970, 1640123668,
1568675693, 478464352, 266772940, 1272929208, 1961288571, 392083579,
871926821, 1117546963, 1871172724, 1771058762, 139971187, 1509024645,
109190086, 1047146551, 1891386329, 994817018, 1247304975, 1489680608,
706686964, 1506717157, 579587572, 755120366, 1261483377, 884508252,
958076904, 1609787317, 1893464764, 148144545, 1415743291, 2102252735,
1788268214, 836935336, 433233439, 2055041154, 2109864544, 247038362,
299641085, 834307717, 1364585325, 23330161, 457882831, 1504556512,
1532354806, 567072918, 404219416, 1276257488, 1561889936, 1651524391,
618454448, 121093252, 1010757900, 1198042020, 876213618, 124757630,
2082550272, 1834290522, 1734544947, 1828531389, 1982435068, 1002804590,
1783300476, 1623219634, 1839739926, 69050267, 1530777140, 1802120822,
316088629, 1830418225, 488944891, 1680673954, 1853748387, 946827723,
1037746818, 1238619545, 1513900641, 1441966234, 367393385, 928306929,
946006977, 985847834, 1049400181, 1956764878, 36406206, 1925613800,
2081522508, 2118956479, 1612420674, 1668583807, 1800004220, 1447372094,
523904750, 1435821048, 923108080, 216161028, 1504871315, 306401572,
2018281851, 1820959944, 2136819798, 359743094, 1354150250, 1843084537,
1306570817, 244413420, 934220434, 672987810, 1686379655, 1301613820,
1601294739, 484902984, 139978006, 503211273, 294184214, 176384212,
281341425, 228223074, 147857043, 1893762099, 1896806882, 1947861263,
1193650546, 273227984, 1236198663, 2116758626, 489389012, 593586330,
275676551, 360187215, 267062626, 265012701, 719930310, 1621212876,
2108097238, 2026501127, 1865626297, 894834024, 552005290, 1404522304,
48964196, 5816381, 1889425288, 188942202, 509027654, 36125855,
365326415, 790369079, 264348929, 513183458, 536647531, 13672163,
313561074, 1730298077, 286900147, 1549759737, 1699573055, 776289160,
2143346068, 1975249606, 1136476375, 262925046, 92778659, 1856406685,
1884137923, 53392249, 1735424165, 1602280572
};
const char *Atom_new(const char *str, int len) {
    unsigned long h;
    int i;
    struct atom *p;
    assert(str);
    assert(len >= 0);
    for (h = 0, i = 0; i < len; i++)
        h = (h<<1) + scatter[(unsigned char)str[i]];
    h &= NELEMS(buckets)-1;
    for (p = buckets[h]; p; p = p->link)
        if (len == p->len) {
            for (i = 0; i < len && p->str[i] == str[i]; )
                i++;
            if (i == len)
                return p->str;
        }
    p = ALLOC(sizeof (*p) + len + 1);
    p->len = len;
    p->str = (char *)(p + 1);
    if (len > 0)
        memcpy(p->str, str, len);
    p->str[len] = '\0';
    p->link = buckets[h];
    buckets[h] = p;//insert atom in front of list
    return p->str;
}

在章节末尾,练习3.1中,书的作者说:“大多数文本推荐使用质数作为桶的大小。使用质数和良好的哈希函数通常会给挂在桶上的列表长度更好的分布。Atom使用2的幂,有时明确地被认为是不好的选择。编写一个程序来生成或读取,比如10,000个典型的字符串,并测量Atom_new的速度和列表长度的分布。然后将桶更改为具有2,039个条目(小于2,048的最大质数),并重复测量。使用质数有帮助吗?你的结论在多大程度上取决于你特定的机器?
所以我将哈希表大小更改为2039,但实际上质数的确使列表长度分布不均匀,我尝试过64、61,61也使分布不均匀。
我只是想知道为什么质数的表大小会导致分布不均匀,这是因为Atom_new使用的哈希函数不好吗?
我正在使用此函数打印出原子列表的长度。
#define B_SIZE 2048
void Atom_print(void)
{
    int i,t;
    struct atom *atom;
    for(i= 0;i<B_SIZE;i++) {
        t = 0;
        for(atom=buckets[i];atom;atom=atom->link) {
            ++t;
        }
        printf("%d ",t);
    }
}
4个回答

7
我认为这是选择存储桶的代码。在你贴出的代码中,它说:
h &= NELEMS(buckets)-1;

对于大小为2的幂次方的情况,这很好用,因为它最终的效果是选择h的低位。对于其他大小,NELEMS(buckets)-1会在0位上有位,并且按位&运算符将丢弃这些位,有效地在桶列表中留下“空洞”。

桶选择的一般公式是:

h = h % NELEMS(buckets);

1
嗨,我已经尝试了“h = h%NELEMS(buckets)”,现在质数的分布很好,但非质数的分布也很好。 - anru
正如@valdo所说,这取决于哈希函数输出的分布情况(当然也间接取决于您的输入数据)。 - Gustavo Giráldez

7
很久以前,我需要在驱动开发中实现一个哈希表,我对此感到困惑:为什么要使用质数?另一方面,2的幂更好——如果是2的幂,可以使用按位与运算代替计算模数。
于是我实现了这样一个哈希表。关键字是由某个第三方函数返回的指针。然后,我最终注意到,在我的哈希表中,只有1/4的条目被填充。因为我使用的哈希函数是恒等函数,并且“以防万一”,所有返回的指针都是4的倍数。
使用质数作为哈希表大小的想法是:实际的哈希函数不会产生等分布的值。通常存在(或至少可能存在)某些依赖性。因此,为了“扩散”这种分布,建议使用质数。
顺便说一句,理论上可能会偶尔发生哈希函数生成选择的质数的倍数的情况。但这种情况发生的概率比不是质数时要低。

那么,这是否意味着对于每个特定的哈希表实现,我们必须在说质数比非质数好之前进行测试?因为在这种情况下,非质数更好。 - anru

6

以下是来自Eternally Confuzzled的Julienne Walker关于哈希表大小的建议:

当涉及到哈希表时,最常推荐的表大小是任何质数。这个建议是因为哈希在一般情况下是被误解的,而且不好的哈希函数需要通过除以质数的额外混合步骤才能类似于均匀分布。另一个推荐使用质数表大小的原因是因为几种冲突解决方法需要它来工作。实际上,这是一个概括,并且实际上是错误的(具有奇数步长的2的幂通常对于大多数冲突解决策略同样有效),但是很少有人考虑其他选择,在哈希表的世界中,质数占主导。


0

这里还有另一个因素,那就是常数哈希值应该都是奇数/质数并且分散广泛的。如果你要哈希的关键字中有偶数个单位(例如字符),那么所有奇数常数将会给你一个偶数的初始哈希值。对于奇数个单位,你会得到一个奇数。我已经做了一些实验,仅仅是50/50%的分割在平衡分布方面就非常有价值。当然,如果所有的关键字长度都相等,这就无关紧要了。

哈希还需要确保你不会得到与"AAB"、"ABA"或"BAA"相同的初始哈希值。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接