我正在寻找一种 C/C++ 的替代方案,用于 Apache Tika 框架,该框架基于 Java。具体而言,我正在寻找一个可以在一个框架下提取文件元数据和结构化文本的解决方案。经过一些在线搜索和浏览,我发现最接近的是 GNU libextractor 和一堆单独的文件过滤器,用于解析文件以提取文本数据 (如 pdftoext、xls2csv 等)。
请问是否有人可以推荐一个与 Apache Tika 类似的好的库?
谢谢
我正在寻找一种 C/C++ 的替代方案,用于 Apache Tika 框架,该框架基于 Java。具体而言,我正在寻找一个可以在一个框架下提取文件元数据和结构化文本的解决方案。经过一些在线搜索和浏览,我发现最接近的是 GNU libextractor 和一堆单独的文件过滤器,用于解析文件以提取文本数据 (如 pdftoext、xls2csv 等)。
请问是否有人可以推荐一个与 Apache Tika 类似的好的库?
谢谢