C/C++替代Apache Tika

10

我正在寻找一种 C/C++ 的替代方案,用于 Apache Tika 框架,该框架基于 Java。具体而言,我正在寻找一个可以在一个框架下提取文件元数据和结构化文本的解决方案。经过一些在线搜索和浏览,我发现最接近的是 GNU libextractor 和一堆单独的文件过滤器,用于解析文件以提取文本数据 (如 pdftoext、xls2csv 等)。

请问是否有人可以推荐一个与 Apache Tika 类似的好的库?

谢谢

2个回答

2
KDE提供了一个叫做KFileMetaData的库,他们在文件索引器中内部使用它。
该库使用C++,Qt5,并支持大多数基本格式,如ms-office-2007,odfs,pdfs,图像,视频,音频和电子书。

注意:此库仅用于调用其他程序,例如catdoc以获取文本。 - Erik Aronesty

1
Tika具有网络服务器模式,因此您可以始终使用该模式启动Tika,然后从C++代码发送请求?或者,Tika还具有CLI模式,因此您可以每次启动新的Tika进程并从管道中读取数据。

这在理论上是个好主意,但有没有被记录下来呢?了解服务器模式可能需要浏览代码和讨论组。Tika项目缺乏文档似乎是一个问题,这很不幸,因为它看起来是一种全面的工具。 - Jason
目前可能只有在代码中有记录,因为它正在积极开发中。如果您感兴趣,最好的方法是在邮件列表上询问,这可能会促使其中一个负责人撰写一些文档 :) - Gagravarr
2
对于未来查看此内容的任何人,该问题现在已经在Tika用户列表上提出 - 长期来看,该线程将有望包含正确的答案! - Gagravarr
那是我 - 我会跟进的,如果需要写一些文档,也会将其链接回这里。感谢您的链接。在许多地方提出的问题最终会导致某个地方的答案,这是有道理的。 - Jason

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接