12得票4回答
TREC格式是什么?

我正在寻找 TREC格式 的规格说明。我已经做了很多谷歌搜索,但没有发现任何线索。 有人知道在哪里可以找到相关信息吗?

8得票1回答
将加密功能添加到Solr/lucene索引

我目前正在使用Solr对一些敏感记录进行搜索服务。 Solr/lucene通过在磁盘上以明文存储敏感信息的反向索引提供快速搜索,因此有必要加密这些索引文件,以防未经授权的人员通过绕过系统安全性来访问它们。 我发现Apache JIRA上有类似的补丁AES encrypted directo...

15得票3回答
新闻文章的聚类

我的情景非常简单:我有一堆新闻文章(目前大约1k篇),我知道其中有些文章涵盖了同一个故事/主题。现在,我希望能够根据它们的相似性将这些文章分组。 到目前为止,我所做的是应用基本的自然语言处理技术,包括停用词去除和词干提取。我还计算了每篇文章的tf-idf向量,并且基于这些tf-idf向量也可...

43得票6回答
余弦相似度和tf-idf

我对有关TF-IDF和余弦相似度的评论感到困惑。 我阅读了两者的相关资料,在维基百科中查找余弦相似度时,我发现了这句话:“在信息检索的情况下,两个文档的余弦相似度将在0到1之间变化,因为词频(tf-idf权重)不能为负数。两个词频向量之间的夹角不能大于90°。” 现在我在想……它们不是两件...

8得票2回答
从谷歌搜索中获取链接(C#)

我正在尝试使用C#编写一个简单的搜索程序,以运行我选择的查询并检索前50个链接。在彻底寻找类似工具/正确API之后,我意识到它们中的大多数已经过时。我的第一次尝试是创建一个“简单的HttpWebRequest”,并扫描接收到的WebResponse以查找“href =”,但结果并不令人满意(冗...

7得票6回答
用于单词聚类/自然语言处理的PHP库?

我正在尝试实现一个相当平凡的“将搜索结果(标题和简短说明)聚类成有意义的命名组”的PHP程序。 经过数小时的谷歌搜索和无数次在SO上搜索(总是得到有趣的结果,但没有真正有用的),我仍然找不到任何PHP库可以帮助我处理聚类。 是否有这样一个PHP库我错过了? 如果没有,是否有任何自由开源软...

16得票1回答
部分词语的文档搜索

我正在寻找一款文档搜索引擎(比如Xapian、Whoosh、Lucene、Solr、Sphinx或其他),它能够搜索部分词项。 例如,当搜索术语“brit”时,搜索引擎应该返回包含“britney”或“britain”或任何包含匹配r*brit*的单词的文档。 顺带提一下,我注意到大多数引...

13得票1回答
良好的结构化 tcp_info 文档

我正在研究如何获取TCP连接的性能参数,其中一个参数是带宽。我打算使用从Linux 2.6开始支持的tcp_info结构体,该结构体包含有关TCP连接的元数据。可以使用getsockopt()函数调用来检索tcp_info中的信息。我花了很多时间寻找一份详细解释该结构体中所有参数的好文档,但未...

8得票2回答
非英语单词的词形还原?

我希望应用词形还原来减少单词的屈折形式。我知道英语WordNet提供了这样的功能,但我也想将词形还原应用于荷兰语、法语、西班牙语和意大利语单词。是否有可靠和确认的方法来解决这个问题?谢谢!

24得票4回答
信息检索(IR)与数据挖掘和机器学习(ML)的区别

人们经常提到IR、ML和数据挖掘这些术语,但我注意到它们之间有很多重叠。 从这些领域有经验的人来看,它们之间的区别是什么?