我有一系列文本条目-来自MySQL数据库的原始HTML。我想找到这些条目中最常见的短语(不是单个最常见的短语,并且理想情况下,不强制逐字匹配)。
我的示例是Yelp.com上的任何评论,它显示给定餐厅数百条评论中的3个片段,格式为:
“试试汉堡”(在44篇评论中)
例如,此页面的“评论亮点”部分: 我已经安装了NLTK并尝试了一些操作,但是对于它的选项感到有些不知所措。这似乎是一个普遍的问题,但我在这里搜索时没有找到简单明了的解决方案。
我的示例是Yelp.com上的任何评论,它显示给定餐厅数百条评论中的3个片段,格式为:
“试试汉堡”(在44篇评论中)
例如,此页面的“评论亮点”部分: 我已经安装了NLTK并尝试了一些操作,但是对于它的选项感到有些不知所措。这似乎是一个普遍的问题,但我在这里搜索时没有找到简单明了的解决方案。