我做了一些数据挖掘,从谷歌和微软的Glassdoor上提取了所有的面试问题:http://letschat.info/?p=34 和 http://letschat.info/?p=37。我在那里有这两个列表。
我的想法是可能再拉几个公司的面试问题,并尝试找到多个来源中相似的问题。
我在搜索过程中发现了这个项目:http://lucene.apache.org/core/,我可以使用以下方式:http://javatechniques.com/blog/lucene-in-memory-text-search-example/。
但这似乎太复杂了。是否有一种更简单的算法可以帮助我找到类似的问题?Stack Overflow使用什么算法?
我想也许可以根据两个问题之间匹配的单词数量生成一个分数,然后按照此方式进行过滤。
我想尝试将问题列表缩小为唯一问题列表。
更新:
我决定使用Lucene。我将整个列表放入索引中,然后迭代该列表并使用Lucene搜索10个与之相似的项。然后加起来得出10个结果的分数,以确定哪些问题被问得最多。
以下是实际代码链接:http://letschat.info/ranking-of-reduced-amazon-questions/
它并不太复杂。这是结果的示例:http://letschat.info/ranking-of-reduced-amazon-questions/ 来自原始来源:http://letschat.info/list-of-amazon-questions/
我的想法是可能再拉几个公司的面试问题,并尝试找到多个来源中相似的问题。
我在搜索过程中发现了这个项目:http://lucene.apache.org/core/,我可以使用以下方式:http://javatechniques.com/blog/lucene-in-memory-text-search-example/。
但这似乎太复杂了。是否有一种更简单的算法可以帮助我找到类似的问题?Stack Overflow使用什么算法?
我想也许可以根据两个问题之间匹配的单词数量生成一个分数,然后按照此方式进行过滤。
我想尝试将问题列表缩小为唯一问题列表。
更新:
我决定使用Lucene。我将整个列表放入索引中,然后迭代该列表并使用Lucene搜索10个与之相似的项。然后加起来得出10个结果的分数,以确定哪些问题被问得最多。
以下是实际代码链接:http://letschat.info/ranking-of-reduced-amazon-questions/
它并不太复杂。这是结果的示例:http://letschat.info/ranking-of-reduced-amazon-questions/ 来自原始来源:http://letschat.info/list-of-amazon-questions/