我正在寻找一个PHP库,能够完成与这个网页大致相同的功能:http://textalyser.net/
我知道Python和Java有很受欢迎的库,但我正在寻找一个PHP版本。谢谢您的帮助!
这是一个老问题...
不管怎样,如果你想要找到两个给定字符串的相似度,PHP有一个内置函数similar_text
。
语法: similar_text ($first, $second, &$percent = null);
//*Find the similarity/difference between two strings in percentage
$pc = 0;
similar_text('You rock!', 'I Rock too!!',$pc);
print $pc;
输出: 57.142857142857
注意: 该函数区分大小写
$pc = 0;
similar_text('you', 'YOU',$pc);
print $pc;
将会返回0!
我遇到的另外两个与此类似的函数是:
Levenshtein距离 和 Soundex
欲了解更多信息,请查看官方文档。
据我所知,目前没有一个被广泛认可的代码库可以实现此功能。
我接触到的最接近的代码可能是php-text-statistics,由Dave Child编写(自从PEAR版本已经多年未得到维护)。但是它只能处理可读性和句子、单词和音节计数。其他数据需要使用count_chars
、str_word_count
、substr_count
、preg_match_all
等函数获取。当然,还需要一些数学技能来计算所有百分比。
话虽如此,我不确定您希望代码库做什么,或者http://textalyser.net/是做什么的...
(我的意思是,一个停用词列表到底是什么?或者说详尽的多词短语是什么...?)