219得票11回答
什么是计算热门话题或标签的最佳方法?

许多网站提供一些统计数据,比如“过去24小时最热门的话题”。例如,Topix.com在它的“新闻趋势”栏目中展示了这一点。在那里,你可以看到提及数量增长最快的话题。 我也想计算一个话题的“热度”。我该怎么做呢?算法应该减小总是热门的话题的权重。通常(几乎)没有人提及的话题应该是最热门的。 谷歌...

112得票6回答
Python: 使用tf-idf-cosine算法来寻找文档相似性。

我正在跟随一个在第一部分和第二部分提供的教程。不幸的是,作者没有时间完成最后一节内容,该部分涉及使用余弦相似度实际找到两个文档之间的距离。我按照文章中的示例结合stackoverflow上的以下链接进行了操作,其中包括上述链接中提到的代码(只是为了使生活更加轻松)。from sklearn.f...

73得票2回答
如何在Lucene QueryParser中指定两个字段?

我阅读了 如何在 QueryParser 中整合多个字段?,但是我还是不明白。 目前我有一个非常奇怪的构造,像这样:parser = New QueryParser("bodytext", analyzer) parser2 = New QueryParser("title", analyz...

49得票5回答
计算词频权重和逆文档频率时,为什么要使用日志?

IDF的公式是log(N/df t),而不仅仅是N/df t。 其中,N表示集合中的文档总数,df t表示词项t的文档频率。 据说使用对数是因为它“减弱”了IDF的影响。这是什么意思? 此外,为什么我们在这里使用对数频率加权来进行词项频率的加权呢?

43得票6回答
余弦相似度和tf-idf

我对有关TF-IDF和余弦相似度的评论感到困惑。 我阅读了两者的相关资料,在维基百科中查找余弦相似度时,我发现了这句话:“在信息检索的情况下,两个文档的余弦相似度将在0到1之间变化,因为词频(tf-idf权重)不能为负数。两个词频向量之间的夹角不能大于90°。” 现在我在想……它们不是两件...

33得票3回答
如何解析来自Google Alerts的数据?

首先,除了解析谷歌发送给您的电子邮件消息的文本之外,您如何将Google Alerts信息存入数据库? 似乎没有Google Alerts API。 如果您必须解析文本,您将如何解析出电子邮件消息的相关部分?

27得票8回答
维基百科文本下载

我想要下载完整的维基百科文本用于我的大学项目。我需要编写自己的爬虫程序来进行下载还是有公共数据集可以在线获取维基百科? 为了简单介绍我的项目,我想查找几个我感兴趣的文章中的有趣单词。但是为了找这些有趣的单词,我计划应用tf/idf来计算每个单词的词频并选取高频单词。但是为了计算tf,我需要知...

25得票3回答
如何计算单个新文档的TF*IDF以进行分类?

我正在使用文档-术语向量来表示一组文档。我使用TF*IDF来计算每个文档向量的术语权重。然后,我可以使用此矩阵为文档分类训练模型。 我希望能够在未来对新文档进行分类。但是为了对其进行分类,我需要首先将文档转换为文档-术语向量,向量也应由TF*IDF值组成。 我的问题是,我如何仅使用单个文档...

25得票1回答
Lucene的StopFilter默认使用哪些停用词列表?

Lucene有一个默认的停用词过滤器 (http://lucene.apache.org/core/4_0_0/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html),有人知道列表中有哪些单词吗?

25得票5回答
有哪些经过验证的算法可以用于推荐相关文章?

这种情况很常见。假设你有一个博客或新闻网站,有许多文章或博客或其他你称之为的内容,你想在每篇文章底部建议看起来相关的其他文章。 让我们假设每个项目都没有太多元数据。也就是说,没有标签、分类。将其视为一个大文本块,包括标题和作者名。 如何找到可能相关的文档呢? 我对实际算法非常感兴趣,而不...