我在mysql中存储了一些哈希值,我想通过汉明距离的比较来提取它们。
所存储的哈希值如下:
qw 1 ffe71b001820a1fd
qw 2 ffffb81c1c3838a0
qw 3 fff8381c1c3e3828
qw 4 fffa181c3c2e3920
qw 5 fffa981c1c3e2820
qw 6 ff5f1c38387c1c04
qw 7 fff1e0c1c38387ef
qw 8 fffa181c1c3e3820
qw 9 fffa381c1c3e3828
我通常这样获取:
SELECT product_id, HAMMING_DISTANCE(phash, 'phashfromuserinput') ;
但在MySQL中,汉明距离是按位运算符,如果字符串仅为数字,则可以执行该操作:
SELECT pagedata,BIT_COUNT(pagecontent^'$encrypted')searchengine WHERE pagecontent > 2 ; ")
它只适用于整数(数字),但我的要求是能够处理数字和字母,例如:
74898fababfbef46 and 95efabfeba752545
从我所了解的,首先我需要将字段转换为 binary
,然后使用 CAST
或 CONVERT
来使用 bitcount
。
SELECT BIT_COUNT( CONV( hash, 2, 10 ) ^
0b0000000101100111111100011110000011100000111100011011111110011011 )
或者SELECT BIT_COUNT(CAST(hash AS BINARY)) FROM data;
这样将数据转换为二进制
并使用位计数
是可行的。现在问题是,mysql
中存储的varbinary
字符/哈希已经是字母数字混合的,如果我将字段转换为varbinary
并使用位计数
,那么它将无法工作,因为存储的哈希不是二进制字符串。我该怎么办?
我正在参考PHP汉明距离匹配的示例:
function HammingDistance($bin1, $bin2) {
$a1 = str_split($bin1);
$a2 = str_split($bin2);
$dh = 0;
for ($i = 0; $i < count($a1); $i++)
if($a1[$i] != $a2[$i]) $dh++;
return $dh;
}
echo HammingDistance('10101010','01010101'); //returns 8
但我不明白如何和mysql匹配并获取,因为我无法在mysql中实现它。
74898acvdf566556
和95gfgdgd7542545
应该代表什么二进制值。(这些是十六个字符,大多数字符都是有效的十六进制数字,但是字符v
和g
不是有效的十六进制数字。)至于你的“主要疑问是它是否适用于字母数字”... 不,它不适用。海明距离适用于**二进制值。将十六进制字符串表示转换为二进制很容易... - spencer7593BIGINT UNSIGNED
。您可以使用CAST
或CONVERT
函数,并指定UNSIGNED
作为目标数据类型。您用于执行该转换的MySQL表达式取决于您要从中进行转换的数据类型/表示形式。请参见Rick James的答案,以了解将包含16个十六进制数字的文字字符串或varchar列转换的示例。 - spencer7593