今天早些时候,我本想在 Stackoverflow 上提问,但是我发现了一个令人惊讶的功能。当我写下我的问题标题时,Stackoverflow 提供了几个相关的问题,我发现已经有两个类似的问题了。那真是惊人!
然后我开始思考如何实现这样的功能。如何根据相关性排序问题:
- 与新问题匹配的单词数越多的问题排名越高
- 如果匹配数量相同,则考虑单词的顺序
- 标题中出现的单词具有更高的相关性
这是一个简单的工作流程还是一个复杂的分数算法呢?需要使用一些词干提取算法来增加召回率吗?是否有库可以实现此功能?您会考虑哪些其他方面?也许 Jeff 自己可以回答!你们是如何在 Stackoverflow 中实现这一点的?:)