Twitter的热门话题算法是如何决定从推文中提取哪些词语的?

7
我看到了这个问题,它关注的是“Brittney Spears”问题。但我的问题略有不同。算法如何确定需要排名的单词或短语?例如,如果我发一条推文说“迈克尔·杰克逊去世了”,它如何知道要提取出“迈克尔·杰克逊”而不是“去世了”?
或者假设那一天艾利克·鲍德温和斯蒂芬·鲍德温都在新闻中出现,并因此在许多推文中被提及。它如何知道要区别对待两个名字,而不只是提取出“鲍德温”?
如果朴素地完成,我可以看出这个问题会成为NP完全问题(你必须将推文中所有可能的短语与其他人的推文中的所有可能的短语进行比较)。
2个回答

2
这个问题的一般解决方案是使用"词频-逆文档频率"(tf-idf)。这是一种统计方法,可以找到比其他单词/术语更相关的单词/术语,因为它们不经常出现。在这种情况下,“迈克尔·杰克逊”这个名字可能与常见的英语单词“死亡”相比具有非常低的频率。
至于Alec Baldwin和Steven Baldwin之间的区别——这些将在词性标注期间被识别为不同的——它们将被标记为单独的专有名词。

2

我认为它会寻找常见的词组。此外,似乎他们在引用http://www.whatthetrend.com/

除此之外,可能还涉及轻微的人工控制。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接