我想建立一个内部搜索引擎(我有成千上万个XML文件的庞大收藏),它能够将查询映射到概念。例如,如果我搜索“big cats”,我希望高排名的结果返回包含“large cats”的文档。但我也可能对返回“huge animals”感兴趣,尽管相关性得分要低得多。
我目前正在阅读Python自然语言处理书籍,其中似乎WordNet具有一些可能有用的单词映射,但我不知道如何将其整合到搜索引擎中。我可以使用Lucene来做到这一点吗?如何操作?
从进一步的研究中,似乎“潜在语义分析”与我所寻找的内容相关,但我不知道如何实现它。
有关如何完成此任务的任何建议?
我目前正在阅读Python自然语言处理书籍,其中似乎WordNet具有一些可能有用的单词映射,但我不知道如何将其整合到搜索引擎中。我可以使用Lucene来做到这一点吗?如何操作?
从进一步的研究中,似乎“潜在语义分析”与我所寻找的内容相关,但我不知道如何实现它。
有关如何完成此任务的任何建议?