我正在实现一个哈希表以及相应的哈希函数,并听说 Murmurhash 是一个适用于此目的的快速算法。查阅一些 C 语言代码后,找到了以下内容:
uint32_t murmur3_32(const char *key, uint32_t len, uint32_t seed) {
static const uint32_t c1 = 0xcc9e2d51;
static const uint32_t c2 = 0x1b873593;
static const uint32_t r1 = 15;
static const uint32_t r2 = 13;
static const uint32_t m = 5;
static const uint32_t n = 0xe6546b64;
uint32_t hash = seed;
const int nblocks = len / 4;
const uint32_t *blocks = (const uint32_t *) key;
int i;
for (i = 0; i < nblocks; i++) {
uint32_t k = blocks[i];
k *= c1;
k = (k << r1) | (k >> (32 - r1));
k *= c2;
hash ^= k;
hash = ((hash << r2) | (hash >> (32 - r2))) * m + n;
}
const uint8_t *tail = (const uint8_t *) (key + nblocks * 4);
uint32_t k1 = 0;
switch (len & 3) {
case 3:
k1 ^= tail[2] << 16;
case 2:
k1 ^= tail[1] << 8;
case 1:
k1 ^= tail[0];
k1 *= c1;
k1 = (k1 << r1) | (k1 >> (32 - r1));
k1 *= c2;
hash ^= k1;
}
hash ^= len;
hash ^= (hash >> 16);
hash *= 0x85ebca6b;
hash ^= (hash >> 13);
hash *= 0xc2b2ae35;
hash ^= (hash >> 16);
return hash;
}
我想澄清一些关于这里传递的参数的问题。"Key" 显然是您要哈希的字符串。如果在结构体中定义为具有 46 个数组长度,那么这是否是我将作为上述函数中的 "length" 传递的值?参数 "seed",我认为它可以是任意的值,只要在哈希调用之间保持恒定即可?还有其他参数需要更改吗?考虑到我正在使用 32 位机器。
我认为我还需要通过我的哈希表的大小对返回的哈希进行模运算?
此外,如果有人可以推荐一种更优秀/更快速的用于字符串的替代哈希函数,那将不胜感激。
提前致谢。
sizeof
以避免错误)。是的。可能不是。是的。 - user253751const uint32_t *blocks = (const uint32_t *) key;
这假设key对齐足够以转换为32位指针。对于char指针,这不能保证。 - wildplasser