有没有适用于PHP的开源文本分析库?

7
我正在寻找一个PHP库,能够完成与这个网页大致相同的功能:http://textalyser.net/ 我知道Python和Java有很受欢迎的库,但我正在寻找一个PHP版本。谢谢您的帮助!

你是否对 PHP 代码的静态分析感兴趣? - just somebody
3个回答

3

这是一个老问题...
不管怎样,如果你想要找到两个给定字符串的相似度,PHP有一个内置函数similar_text

语法: similar_text ($first, $second, &$percent = null);

//*Find the similarity/difference between two strings in percentage
$pc = 0;
similar_text('You rock!', 'I Rock too!!',$pc);
print $pc;
输出: 57.142857142857

如上所述,该值是两个字符串相似的百分比。

注意: 该函数区分大小写

$pc = 0;
similar_text('you', 'YOU',$pc);
print $pc;  

将会返回0!

我遇到的另外两个与此类似的函数是:
Levenshtein距离 和 Soundex

欲了解更多信息,请查看官方文档


3

简短回答

据我所知,目前没有一个被广泛认可的代码库可以实现此功能。

详细回答

我接触到的最接近的代码可能是php-text-statistics,由Dave Child编写(自从PEAR版本已经多年未得到维护)。但是它只能处理可读性和句子、单词和音节计数。其他数据需要使用count_charsstr_word_countsubstr_countpreg_match_all等函数获取。当然,还需要一些数学技能来计算所有百分比。

话虽如此,我不确定您希望代码库做什么,或者http://textalyser.net/是做什么的...
(我的意思是,一个停用词列表到底是什么?或者说详尽的多词短语是什么...?)


我赞同这个观点,事实上看起来这似乎是你唯一相对稳固的选择! - Alex Weber

2

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接