我有一个需求,需要从Excel/CSV文件中提取特定的列/行。有人建议我使用Tika来完成这个任务。
在研究Tika的过程中,我发现了POI API,发现它更加友好易用。
之后我们可能还需要解析PDF文件。
作为这个技术的新手,我想知道这两种技术有何不同,哪种技术更适合我的需求。
谢谢, Krishna
我有一个需求,需要从Excel/CSV文件中提取特定的列/行。有人建议我使用Tika来完成这个任务。
在研究Tika的过程中,我发现了POI API,发现它更加友好易用。
之后我们可能还需要解析PDF文件。
作为这个技术的新手,我想知道这两种技术有何不同,哪种技术更适合我的需求。
谢谢, Krishna
Apache Tika 提供了一种提取一系列格式一致文本和元数据的通用方法。它还提供内容检测、语言检测以及其他一些小工具。如果您编写代码与 Apache Tika 一起使用,那么您的代码将能够以相同的方式处理 大量不同格式的文件。您无需关心一个格式是否有标题,或者另一个是否将同样的逻辑称为 LongTitle 或 Subject。您也无需关心使用哪个库来处理某个格式。您只需要调用 Tika,它会为您完成繁重的工作,然后返回一致的元数据和文本内容。
Apache POI 是 Tika 使用的库之一。POI 支持大多数主要的 Microsoft Office 格式,包括 Excel (.xls 和 .xlsx)。它提供对整个文件格式的访问,允许您完全控制读取出的信息(还支持写入)。Tika 使用 POI 从各种不同的 Microsoft 格式中获取文本和元数据,但并不会提取所有内容。直接使用 POI 可以让您决定自己关心的内容并提取它。
如果您想支持许多文件格式,请使用 Tika。如果您想完全控制如何获取信息,请使用 POI。