用PHP编写的文章搜索引擎

4
我在我的网站上使用Sphinx作为搜索引擎,它的表现非常出色,我没有任何抱怨。唯一的缺点是,它不允许我搜索长度超过15个单词的文章。我知道实际上人们不会使用超过3-4个单词,但我希望用它来查找重复内容。
我想知道是否有任何替代方案可以取代Sphinx。我想解决重复内容的问题。
我的主要文章表在InnoDB中,但我也将文章缓存到MyISAM表中进行全文搜索。但是当我搜索一篇文章时,它需要很长时间才能完成一次搜索。我认为这不是查询的问题,而是因为MySQL缺乏全文搜索功能。
谢谢 Jason

你想构建什么样的查询来帮助你查找重复内容? - Cam
1
FYI,"too many keywords" 的限制在最新版本的 Sphinx 中已经被移除。 - user187291
@stereofrog 不是的,我在Windows和CentOS上运行最新版本的Sphinx。 - Jason
3个回答

1

Apache Solr是一种替代方案。它基于Apache的Lucene项目...

你可能也想要检查Lucene

另外,由于你正在使用MySQL,请检查其全文搜索功能MySQL全文搜索


@stereofrog 你说得对。我使用的是旧版的php api,所以它不允许我使用完整的查询。谢谢。 - Jason

0

0

也许不是很有帮助,但您可以简单地为MySQL字段添加唯一索引以防止插入重复数据?

在我使用的Sphinx版本(0.9.9)中,我还没有遇到任何查询长度限制,但也许我还没有尝试得够多。


我试图找到抄袭内容,因此添加唯一字段不是一个好选择。我现在可以在Sphinx中插入完整的查询,但它经常崩溃 :( - Jason

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接