使用Sphinx索引Word文档和PDF文件

10

我有一个网站,用户上传.doc和.pdf格式的文档。 我正在使用Sphinx对我的SQL数据库(MySQL)进行全文搜索。针对这些文件格式,最佳的在Sphinx中建立索引的方法是什么?

3个回答

9

我用的方法是使用pdf2text和antiword。我同时使用这两个工具将pdf和word文档的内容转储到数据库中。从那里,使用Sphinx轻松爬取。


6

不幸的是,Sphinx无法直接索引这些文件类型。您需要将文本内容导入数据库或导入Sphinx可以理解的XML格式


你会推荐一个方法胜过另一个吗? - Jared Brown
取决于你使用的服务器端语言。如果是Ruby/Rails,我知道所有的库默认情况下都不支持XML,除非你是从头开始构建系统(而不是使用ActiveRecord)。所以我会使用数据库。否则,完全由你决定。如果你没有使用Ruby,请查看你所选择的语言中是否有可用的库,看看它们能不能做到。 - pat

1

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接