我正在寻找一种算法,可以比较两个文本消息(比如论坛帖子)并以百分比的形式确定它们的相似度。
为此,最有效的解决方案是什么?
这个算法的想法是识别论坛上使用超过两个昵称的用户,他们假扮成不同的人。
我将编写一个程序,读取他们发布的所有帖子,并将第一个账户的每篇帖子与第二个账户的帖子进行比较,以确定它们是否真正是两个不同的人或者只是单个用户的两个注册。
为此,最有效的解决方案是什么?
这个算法的想法是识别论坛上使用超过两个昵称的用户,他们假扮成不同的人。
我将编写一个程序,读取他们发布的所有帖子,并将第一个账户的每篇帖子与第二个账户的帖子进行比较,以确定它们是否真正是两个不同的人或者只是单个用户的两个注册。