64位转16位哈希键

4
什么是将64位值哈希为16位值的最有效方法,就像以下函数一样。
int16 hashfunction( int64 );

以最小的碰撞概率。

3
预先知道需要被哈希处理的数值吗? - Hasturkun
2
你的输入值分布如何? - Kerrek SB
14
为了估计碰撞的概率,需要知道有关数据的一些信息。否则,对于随机生成的64位数据,仅使用低16位与使用其他哈希函数相比同样高效且不会发生碰撞。 - President James K. Polk
好的,既然你已经开始接受一些答案了……作为一个天真的想法,只是为了说明为什么你应该更多地思考你的数据的性质,如果你知道你所有的输入都小于10000,那么你可以将其截断为16位并得到一个完美的哈希。如果你的输入是均匀分布的,那么对任意数量的位数进行截断也会是均匀的。所以这实际上是一个关于你想要什么的问题。如果你想要很多去相关性(相邻的数字给出任意远的哈希值),你应该看看其他一些(加密?)哈希算法,也许是建议使用的CRC16。 - Kerrek SB
不要试图使用有符号数来做这样的事情。当你进行哈希时,很可能只想看到值的位模式,因此请使用 uint64_tuint16_t - Jens Gustedt
@Jens Gustedt 谢谢,但我认为它作为注释很好用。 - President James K. Polk
2个回答

7

我猜CRC16是最好的选择?

更新:直接来自Linux内核源代码!为您提供CRC16。

/*
 *      crc16.c
 *
 * This source code is licensed under the GNU General Public License,
 * Version 2. See the file COPYING for more details.
 * 
 * Copyright (c) 2005 Ben Gardner <bgardner@wabtec.com>
 */

#include <linux/types.h>

/** CRC table for the CRC-16. The poly is 0x8005 (x^16 + x^15 + x^2 + 1) */
u16 const crc16_table[256] = {
        0x0000, 0xC0C1, 0xC181, 0x0140, 0xC301, 0x03C0, 0x0280, 0xC241,
        0xC601, 0x06C0, 0x0780, 0xC741, 0x0500, 0xC5C1, 0xC481, 0x0440,
        0xCC01, 0x0CC0, 0x0D80, 0xCD41, 0x0F00, 0xCFC1, 0xCE81, 0x0E40,
        0x0A00, 0xCAC1, 0xCB81, 0x0B40, 0xC901, 0x09C0, 0x0880, 0xC841,
        0xD801, 0x18C0, 0x1980, 0xD941, 0x1B00, 0xDBC1, 0xDA81, 0x1A40,
        0x1E00, 0xDEC1, 0xDF81, 0x1F40, 0xDD01, 0x1DC0, 0x1C80, 0xDC41,
        0x1400, 0xD4C1, 0xD581, 0x1540, 0xD701, 0x17C0, 0x1680, 0xD641,
        0xD201, 0x12C0, 0x1380, 0xD341, 0x1100, 0xD1C1, 0xD081, 0x1040,
        0xF001, 0x30C0, 0x3180, 0xF141, 0x3300, 0xF3C1, 0xF281, 0x3240,
        0x3600, 0xF6C1, 0xF781, 0x3740, 0xF501, 0x35C0, 0x3480, 0xF441,
        0x3C00, 0xFCC1, 0xFD81, 0x3D40, 0xFF01, 0x3FC0, 0x3E80, 0xFE41,
        0xFA01, 0x3AC0, 0x3B80, 0xFB41, 0x3900, 0xF9C1, 0xF881, 0x3840,
        0x2800, 0xE8C1, 0xE981, 0x2940, 0xEB01, 0x2BC0, 0x2A80, 0xEA41,
        0xEE01, 0x2EC0, 0x2F80, 0xEF41, 0x2D00, 0xEDC1, 0xEC81, 0x2C40,
        0xE401, 0x24C0, 0x2580, 0xE541, 0x2700, 0xE7C1, 0xE681, 0x2640,
        0x2200, 0xE2C1, 0xE381, 0x2340, 0xE101, 0x21C0, 0x2080, 0xE041,
        0xA001, 0x60C0, 0x6180, 0xA141, 0x6300, 0xA3C1, 0xA281, 0x6240,
        0x6600, 0xA6C1, 0xA781, 0x6740, 0xA501, 0x65C0, 0x6480, 0xA441,
        0x6C00, 0xACC1, 0xAD81, 0x6D40, 0xAF01, 0x6FC0, 0x6E80, 0xAE41,
        0xAA01, 0x6AC0, 0x6B80, 0xAB41, 0x6900, 0xA9C1, 0xA881, 0x6840,
        0x7800, 0xB8C1, 0xB981, 0x7940, 0xBB01, 0x7BC0, 0x7A80, 0xBA41,
        0xBE01, 0x7EC0, 0x7F80, 0xBF41, 0x7D00, 0xBDC1, 0xBC81, 0x7C40,
        0xB401, 0x74C0, 0x7580, 0xB541, 0x7700, 0xB7C1, 0xB681, 0x7640,
        0x7200, 0xB2C1, 0xB381, 0x7340, 0xB101, 0x71C0, 0x7080, 0xB041,
        0x5000, 0x90C1, 0x9181, 0x5140, 0x9301, 0x53C0, 0x5280, 0x9241,
        0x9601, 0x56C0, 0x5780, 0x9741, 0x5500, 0x95C1, 0x9481, 0x5440,
        0x9C01, 0x5CC0, 0x5D80, 0x9D41, 0x5F00, 0x9FC1, 0x9E81, 0x5E40,
        0x5A00, 0x9AC1, 0x9B81, 0x5B40, 0x9901, 0x59C0, 0x5880, 0x9841,
        0x8801, 0x48C0, 0x4980, 0x8941, 0x4B00, 0x8BC1, 0x8A81, 0x4A40,
        0x4E00, 0x8EC1, 0x8F81, 0x4F40, 0x8D01, 0x4DC0, 0x4C80, 0x8C41,
        0x4400, 0x84C1, 0x8581, 0x4540, 0x8701, 0x47C0, 0x4680, 0x8641,
        0x8201, 0x42C0, 0x4380, 0x8341, 0x4100, 0x81C1, 0x8081, 0x4040
};

static inline u16 crc16_byte(u16 crc, const u8 data)
{
    return (crc >> 8) ^ crc16_table[(crc ^ data) & 0xff];
}

/**
 * crc16 - compute the CRC-16 for the data buffer
 * @crc:        previous CRC value
 * @buffer:     data pointer
 * @len:        number of bytes in the buffer
 *
 * Returns the updated CRC value.
 */
u16 crc16(u16 crc, u8 const *buffer, size_t len)
{
        while (len--)
                crc = crc16_byte(crc, *buffer++);
        return crc;
}

3
哇,你甚至保留了Linus的丑陋缩进风格。 - R. Martinho Fernandes

3
一个非常简单的例子可能如下所示:
int16 hashfunction( int64 i )
{
    int16 hash = (int16)(i & 0xFFFF);
    hash ^= (int16)((i >> 16) & 0xFFFF);
    hash ^= (int16)((i >> 32) & 0xFFFF);
    hash ^= (int16)((i >> 48) & 0xFFFF);

    return hash;
}

1
是的,唐纳德·库斯是可能会反对它的。请参见http://eternallyconfuzzled.com/tuts/algorithms/jsw_tut_hashing.aspx - Hans Passant
唐纳德·克努斯在寻找完美哈希。我不声称这是完美的。事实上,这相当幼稚和教科书式。但它可以以最少的努力满足OP的需求。还有其他答案,也许有人应该提出更好的方案。 - Chris Eberle
@Chris:「完美哈希」是一个技术术语,你可能想用「理想的」或「最优的」代替。 - Dietrich Epp
@Dietrich:完美、理想、最优都意味着输入域没有冲突的哈希空间。但这不是那种情况。 - Chris Eberle
@Chris:“完美哈希”意味着没有冲突。你在哪里看到“理想”或“最优”被用于这种方式?例如,我见过关于“理想完美哈希”的参考文献,它们是单射和满射的……但在这些著作中,“完美哈希”始终是指“单射哈希函数”的术语。 - Dietrich Epp
谢谢Hans。你提供的链接非常有帮助。 - MetallicPriest

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接