24得票7回答
计算两个列表之间的相似度。

编辑: 由于大家感到困惑,我想简化我的问题。我有两个有序列表。现在,我只想计算一个列表与另一个列表的相似程度。 例如,1,7,4,5,8,9 1,7,5,4,9,6 什么是衡量这两个列表相似度的好方法,使得顺序很重要。例如,当两个列表中的4和5交换位置时,我们应该惩罚相似度? 我有两个系统...

24得票4回答
信息检索(IR)与数据挖掘和机器学习(ML)的区别

人们经常提到IR、ML和数据挖掘这些术语,但我注意到它们之间有很多重叠。 从这些领域有经验的人来看,它们之间的区别是什么?

22得票2回答
如何从PDF文件中提取高亮部分

有没有一种编程方式可以从PDF文件中提取出划重点的文本?任何语言都可以。我已经找到了几个库,包括Python、Java和PHP,但它们都不能胜任这项工作。

22得票9回答
如何从HTML页面中提取仅主要文本内容?

更新 Boilerpipe 看起来非常好用,但我意识到我不仅需要主要内容,因为许多页面没有文章,只有链接和一些短描述指向整个文本(这在新闻门户网站中很常见),而我不想放弃这些短文字。 如果有一个 API 可以做到这一点,获取不同的文本部分/块并将每个部分分成某种方式(与单个文本不同),请报...

20得票3回答
获取存储在Amazon S3上的图像的高度和宽度

我计划将图片存储在Amazon S3上,如何从Amazon S3检索: 文件大小 图像高度 图像宽度?

19得票1回答
露西恩算法

我阅读了Doug Cutting的论文:“用于总排名的空间优化”。 由于它是很久以前写的,我想知道Lucene使用什么算法(关于倒排列表遍历和得分计算,排名方面)。 特别是,在那里描述的总排名算法涉及每个查询术语的整个倒排列表遍历,因此在像“黄色狗”这样非常常见的查询术语的情况下,两个术语...

18得票8回答
如何纠正用户输入(类似于谷歌的“你是不是想找……”)

我有以下需求:- 我有许多(比如100万个)值(名称)。 用户会输入一个搜索字符串。 我不希望用户正确拼写这些名称。 因此,我想做出类似于Google "Did you mean"的功能。这将列出来自我的数据存储中的所有可能的值。这里有一个类似但不完全相同的问题here。这没有回答我的问...

17得票3回答
如何清除Solr中的缓存?

我正在尝试比较不同Solr查询的性能。为了进行公正测试,我希望在每次查询之间清除缓存。 这该怎么做?当然可以重启服务器,但我想知道是否有更快的方法。

17得票3回答
Python中的TF-IDF实现

有哪些标准的 Python tf-idf 实现/API?我已经了解了 NLTK 中的内容。我想知道其他提供此功能的库。

17得票1回答
如何构建一个简单的倒排索引?

我想构建一个简单的搜索引擎索引功能,不使用像Lucene这样的API。在倒排索引中,我只需要记录每个词的基本信息,例如docID,位置和频率。 现在,我有几个问题: 通常用什么数据结构来构建倒排索引?多维列表吗? 构建索引后,如何将其写入文件?文件格式是什么样的?像表格一样?像在纸上画索...