我正在寻找一种数据结构来处理数十亿个包含512个二进制值的二进制字符串。
我的目标是向该结构发送查询,并获取结果集,其中包含所有距离较小的数据。
我的第一个想法是使用kd树。但是对于高维度,这些树非常慢。
我的第二个想法是使用lsh方法(minHash / superbit lsh)。但为此,我还必须拥有一个执行有效搜索的结构。
有没有任何想法来处理这些大数据?
** 更新 ** 一些详细说明:
- 对于汉明距离只存在一个可能是128的上限。但我不知道上限是多少。 - 插入或删除会很好,但我也可以重建图形(数据库每周只更新一次)。 - 结果集必须包含所有相关节点(我不在寻找knn)。
我的目标是向该结构发送查询,并获取结果集,其中包含所有距离较小的数据。
我的第一个想法是使用kd树。但是对于高维度,这些树非常慢。
我的第二个想法是使用lsh方法(minHash / superbit lsh)。但为此,我还必须拥有一个执行有效搜索的结构。
有没有任何想法来处理这些大数据?
** 更新 ** 一些详细说明:
- 对于汉明距离只存在一个可能是128的上限。但我不知道上限是多少。 - 插入或删除会很好,但我也可以重建图形(数据库每周只更新一次)。 - 结果集必须包含所有相关节点(我不在寻找knn)。