我有以下情况:
String a =“网络爬虫是一种自动浏览万维网互联网的计算机程序”; String b =“Web Crawler计算机程序浏览万维网”;
是否有任何想法或标准算法来计算相似度百分比?
例如,上述情况,手动查看估计的相似性应该是90% ++。
我的想法是对两个字符串进行标记化处理,并比较匹配的标记数。类似于(7个标记/ 10个标记)* 100。但是,当然,这种方法并不有效。比较匹配字符数似乎也不起作用...
有人能给出一些指导吗?
以上是我的项目Plagiarism Analyzer的一部分。
因此,匹配的单词将完全相同,没有任何同义词。
在这种情况下,唯一要考虑的是如何计算相似度的相当准确的百分比。
非常感谢任何帮助。
String a =“网络爬虫是一种自动浏览万维网互联网的计算机程序”; String b =“Web Crawler计算机程序浏览万维网”;
是否有任何想法或标准算法来计算相似度百分比?
例如,上述情况,手动查看估计的相似性应该是90% ++。
我的想法是对两个字符串进行标记化处理,并比较匹配的标记数。类似于(7个标记/ 10个标记)* 100。但是,当然,这种方法并不有效。比较匹配字符数似乎也不起作用...
有人能给出一些指导吗?
以上是我的项目Plagiarism Analyzer的一部分。
因此,匹配的单词将完全相同,没有任何同义词。
在这种情况下,唯一要考虑的是如何计算相似度的相当准确的百分比。
非常感谢任何帮助。