使用PHP来确定用户文本数据库中的趋势

3
我已经阅读了许多关于算法和计算文本趋势的通用方法的帖子,但我需要一个使用PHP的实际、简单的例子。
有一篇比其他文章更有帮助的帖子建议对每个文本进行归一化处理,然后根据单词(过滤链接、用户名等)将其分成数组,从每个消息中构建一个大数组,并使用array_count_values查找最常见的单词。这似乎是可行的,但我不知道它是否是最佳方式。例如,它似乎更倾向于单个单词结果而不是短语(“Barack”和“Obama”而不是“Barack Obama”)。
除此之外,是否有更好的方法来处理?是否存在一个可以使用的实际示例或现有解决方案(脚本或类)?谢谢!
1个回答

0

你所要求的自动化处理方式非常困难,除非先收集大量有关单词和短语的数据。

除非你愿意花费大量时间、金钱和持续资源来实现自动化,否则我建议手动创建一个单词列表,将应该被计算为短语的单词列出来(例如如果Barack和Obama相邻,则提取为Barack Obama),或者干脆按照帖子中所解释的方法进行操作。

可能会有外部服务可以按照你想要的方式解析数据,但毫无疑问它们会以高昂的价格出售。


谢谢回复。我不明白为什么还没有开发出一个更简单的解决方案。它不需要是最复杂的解决方案(例如 Twitter 的趋势),但需要有一个解决方案。 :/ - mcleodm3
如果Twitter没有获得大量的文本数据,他们就无法做到这一点。每个人都在谈论“巴拉克·奥巴马”,他们可以捕捉到这种趋势,但是趋势的问题在于你需要有历史数据来支持它,并从中构建你的分析。 - adlawson

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接