14得票3回答
如何展示NDCG分数的显著性

假设我的检索系统的NDCG得分为0.8。我如何解释这个分数?我如何告诉读者这个分数是显著的?

13得票1回答
良好的结构化 tcp_info 文档

我正在研究如何获取TCP连接的性能参数,其中一个参数是带宽。我打算使用从Linux 2.6开始支持的tcp_info结构体,该结构体包含有关TCP连接的元数据。可以使用getsockopt()函数调用来检索tcp_info中的信息。我花了很多时间寻找一份详细解释该结构体中所有参数的好文档,但未...

13得票7回答
Java开源文本挖掘框架

我想知道什么是用于文本挖掘的最佳开源Java框架,可以同时使用机器学习和词典方法。 我正在使用Mallet,但是文档不是很多,而且我不知道它是否符合我所有的要求。

13得票1回答
MAP@k计算

在计算top-k元素的平均精度时,根据wiki、kaggle上的ml指标和这个答案:关于(平均)平均精度的困惑,应该计算为k处平均精度的平均值,其中k处的平均精度计算如下: 其中:P(i)是列表中截止到第i个位置的准确率;rel(i)是指示函数,如果排名为i的项目是相关文档,则等于1,否...

12得票5回答
使用Python中的Whoosh进行模糊字符串搜索

我在MongoDB中建立了一个大型银行数据库。我可以轻松地利用这些信息并在whoosh中创建索引。例如,我想能够匹配银行名称“Eagle Bank & Trust Co of Missouri”和“Eagle Bank and Trust Company of Missouri”。以下代码可用...

12得票10回答
爬取互联网

我想要爬取一些特定的内容,例如音乐会、电影、艺术画廊开幕等等。任何值得花时间前往的活动。 我应该如何实现一个爬虫呢? 我听说过 Grub(grub.org -> Wikia)和 Heritix(http://crawler.archive.org/)。 还有其他的选择吗? 大家有什么意...

12得票2回答
如何使用tf-idf选择停用词?(非英语语料库)

我已经成功地评估了给定语料库的tf-idf函数。如何找到每个文档的停用词和最佳单词?我理解,对于给定单词和文档来说,tf-idf值较低意味着它不是选择该文档的好单词。

12得票3回答
如何将单词嵌入向量合并为一个向量?

我完全了解词嵌入(skip-gram,CBOW)的含义和方法。我知道,Google有一个word2vector API,通过获取单词可以生成向量。 但我的问题是:我们有一个从句,包括主语、宾语、动词……每个单词都是由Google API预先嵌入的,现在“我们如何将这些向量组合在一起,以创建等于...

12得票1回答
将一个字段存储为字节而不是字符串,对于数十亿个文档,Lucene索引将优化多少空间和处理?

我理解倒排索引的概念,以及如何通过字典存储优化来加载整个字典到主内存中以进行更快的查询。 我正在尝试了解Lucene索引的工作原理。 假设我有一个String类型的字段,在Lucene索引中为2000亿个文档提供了仅四个不同的值。该字段是一个Stored字段。 如果我将该字段更改为Byt...

12得票4回答
TREC格式是什么?

我正在寻找 TREC格式 的规格说明。我已经做了很多谷歌搜索,但没有发现任何线索。 有人知道在哪里可以找到相关信息吗?