例如,我有一个字符串的长列表,每个字符串大约有30-50个字符,我想删除与该列表中其他某些字符串相似的字符串(仅保留重复项家族中的一个出现)。
我查看了 各种字符串相似性算法,例如Levenstein距离和这篇文章中介绍的方法。它们确实有效,但速度非常慢 - 我想出的最佳算法表现出O(n^2)的复杂度,并需要大约1.5秒来处理包含3000个字符串的列表。
是否有一种快速的方法来去重这些列表?
我查看了 各种字符串相似性算法,例如Levenstein距离和这篇文章中介绍的方法。它们确实有效,但速度非常慢 - 我想出的最佳算法表现出O(n^2)的复杂度,并需要大约1.5秒来处理包含3000个字符串的列表。
是否有一种快速的方法来去重这些列表?