有人使用Tika来索引其他类型的文档吗,就像SOLR插件一样吗? Apache Tika 一些链接: PDF2TEXT在Linux上是poppler或poppler-utils中的一部分 ANTIWORD--似乎是用于旧的.doc,而不是较新的.docx