使用PHP来确定用户文本数据库中的趋势

Question

使用PHP来确定用户文本数据库中的趋势

3

我已经阅读了许多关于算法和计算文本趋势的通用方法的帖子，但我需要一个使用PHP的实际、简单的例子。

有一篇比其他文章更有帮助的帖子建议对每个文本进行归一化处理，然后根据单词（过滤链接、用户名等）将其分成数组，从每个消息中构建一个大数组，并使用array_count_values查找最常见的单词。这似乎是可行的，但我不知道它是否是最佳方式。例如，它似乎更倾向于单个单词结果而不是短语（“Barack”和“Obama”而不是“Barack Obama”）。

除此之外，是否有更好的方法来处理？是否存在一个可以使用的实际示例或现有解决方案（脚本或类）？谢谢！

- mcleodm3

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- adlawson · Answer 1

你所要求的自动化处理方式非常困难，除非先收集大量有关单词和短语的数据。

除非你愿意花费大量时间、金钱和持续资源来实现自动化，否则我建议手动创建一个单词列表，将应该被计算为短语的单词列出来（例如如果Barack和Obama相邻，则提取为Barack Obama），或者干脆按照帖子中所解释的方法进行操作。

可能会有外部服务可以按照你想要的方式解析数据，但毫无疑问它们会以高昂的价格出售。