我有一个字符串数组,数量不多(可能只有几百个),但通常很长(几百个字符)。
这些字符串一般来说是无意义的,而且彼此不同。但在这些字符串中,大约 300 个中可能有 5 个非常相似。实际上,它们是相同的字符串,区别在于格式、标点和少量单词。
如何找出这组字符串?
顺便说一下,我是用 Ruby 写的,但如果没有其他方法,伪代码算法也可以。
谢谢!
这些字符串一般来说是无意义的,而且彼此不同。但在这些字符串中,大约 300 个中可能有 5 个非常相似。实际上,它们是相同的字符串,区别在于格式、标点和少量单词。
如何找出这组字符串?
顺便说一下,我是用 Ruby 写的,但如果没有其他方法,伪代码算法也可以。
谢谢!