如何将字符串哈希为 [0:1] 范围内的浮点数?

15

我有一个包含多个字符串的数据集。我想将每个字符串都关联到一个在[0:1]范围内“随机”分布的浮点数。例子:

>>> myfunction(string_1)
0.26756754
>>> myfunction(string_2)
0.86764534

random 无法满足我的需求,因为它不接受任何字符串作为输入/确定性参数。我正在寻找更像哈希函数的东西。

2个回答

19
一种快速、便携的解决方案:
from zlib import crc32

def bytes_to_float(b):
    return float(crc32(b) & 0xffffffff) / 2**32

将字节串转换为介于0.0和1.0之间的浮点数。如果您正在使用Unicode字符串(例如,在Python 3中),则需要对其进行编码:

def str_to_float(s, encoding="utf-8"):
    return bytes_to_float(s.encode(encoding))

示例

>>> str_to_float(u"café")
0.5963937465567142

这应该在任何机器和任何版本的Python上都能得到相同的结果(已在Python 2.7和3.5上进行了测试)。
注意:这里的“& 0xffffffff”是为了保证无符号整数结果。这是必需的,因为根据Python版本,“crc32(b)”可能返回有符号或无符号整数。
编辑:
如果您想要比CRC32更“随机”的东西,可以使用哈希函数,例如SHA256:
from struct import unpack
from hashlib import sha256

def bytes_to_float(b):
    return float(unpack('L', sha256(b).digest()[:8])[0]) / 2**64

性能测试

            String length
Function    7       70      700     7000
b2f_crc32   0.34    0.38    0.87    5.59    
b2f_md5     0.96    1.08    2.11    11.13   
b2f_sha1    0.99    1.07    1.76    8.37    
b2f_sha256  1.11    1.20    2.60    16.44   
b2f_rnd     6.59    6.55    6.59    6.60    

基本上,对于短字符串来说,CRC32解决方案是迄今为止最快的(比@user3030010的随机=RND解决方案快18倍)。无论字符串长度如何,它大约比SHA256快3倍。 SHA256比MD5慢,MD5比SHA1慢(除了非常短的字符串)。但是,RND选项不取决于字符串长度,因此当字符串非常长时,它可能是最快的选项(但请参见我对@user3030010答案的评论):在我的计算机上,对于超过2500个字符的字符串,它击败了SHA256,对于超过8000个字符的字符串,它击败了CRC32。

以下是使用timeit.timeit()的代码:

from __future__ import print_function
[...] # define b2f_crc32, b2f_md5 and so on.
for func in ("b2f_crc32", "b2f_md5", "b2f_sha1", "b2f_sha256", "b2f_rnd"):
  for length in (7, 70, 700, 7000):
    t = timeit('b2f(b"%s")'%(b"x"*length),
               'from __main__ import %s as b2f' % func)
    print("%.2f"%t, end="\t")
  print()

5
你可以尝试这样做:

你可以尝试一些类似以下的操作:

import random
random.seed(hash(your_string))
random.random()

如果我理解正确,random.seed()只是初始化生成器而不返回任何内容? - Vincent
@Vincent 正确的。但是它会影响random.random()返回的值序列。因此第一个随机数直接依赖于种子值。 - Barmar
1
这个答案很有趣,但有两个限制:首先,它可能在不同的运行中返回不同的结果,因为hash()函数不能保证稳定。其次,它会更改共享的随机种子,因此如果程序的其他部分依赖于随机数,则可能产生不良副作用。我建议使用我的答案或者至少用rnd = random.Random(hash(your_string))替换random.seed(hash(your_string)),然后用rnd.random()。 - MiniQuark

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接