使用 Sphinx 可以在一句话中搜索单词。例如,我们有以下文本:
Вася молодец, съел огурец, т.к. проголодался. Такие дела。
如果我搜索
молодец SENTENCE огурец
我发现了这段文本。如果我搜索
молодец SENTENCE проголодался
由于短语т.к.
的句点被视为句子结尾,因此我找不到这个文本。
而且我看到,在Sphinx源代码中,定界符的设置是硬编码的。
我的问题是如何改进句子的检测?更好的方法是使用Yandex的Tomita解析器或其他具有智能句子检测功能的nlp库。
T.K.
视为句子边界,因为它是一个缩写词。http://sphinxsearch.com/docs/current.html#conf-index-sp - barryhunterт.к.
不是Sphinx的标准缩写吗?如何指定这个缩写?有其他情况的任何可能方式:“Компании Yahoo! известна во всем мире.”和其他情况。我认为更好的方法是将分词委托给外部库... - Nick