使用MongoDB进行PDF、Word和文本文档的信息提取、索引和搜索。

3
MongoDB是否有存储PDF、文本或.doc/.docx文件并在内容中搜索它们或在两个文档之间基于关键字进行匹配的功能?
例如:
我想要存储一个名为“claim.txt”的文档,其中包含诊断代码、简短描述、日期和金额等值。我还需要存储另一个名为“physician_diagnosis.pdf”的文档,其中包含相同的简短描述和其他文本。
我想发出查询,查找具有匹配日期和相同诊断的任何文档。(例如:“肺炎”,“12/12/2012”)
使用MongoDB的API是否可以实现这样的功能,还是需要进行一些预处理?
如果可能,您能否指向好的示例和文档?

2
你需要将PDF和.doc/docx转换为文本,然后使用这个链接:http://docs.mongodb.org/manual/core/text-search/ - vinipsmaker
@Edmon,你能用MongoDB解决你的问题吗?我现在正在研究你所问的问题是否可以在MongoDB中完成。如果你找到了任何文档资料,能否提供给我呢?谢谢! - Chris
我发现这是最接近的答案:http://v.bartko.info/?p=463 HTH - Edmon
1个回答

1
Your task is probably better suited to something like Solr (http://lucene.apache.org/solr/), which has inputs for many different documents (http://wiki.apache.org/solr/ExtractingRequestHandler). You will have to write some code to do the proper extraction though.
MongoDB更适合处理结构化数据,虽然我们称它们为文档,但这里并不是指"PDF文档"或"Word文档"。这只是支持嵌套字段类型的通用格式,我们称之为文档,与关系型数据库行相对应,后者不允许这样做。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接