Clojure - 将PDF/Doc文件提取为简单文本的最佳方法

3
我正在寻找一个简单的解决方案,可以解析上传到我的应用程序中的每个文件,并将其转换为简单的文本。我的Web应用程序运行在Clojure上,希望API可以解析所有类型的文件。
1个回答

6
请看一下apache poipdfboxapache tika。它们是用于处理各种文件格式的Java库,您可以直接在Clojure应用程序中使用它们的Java API。
以下是来自Apache Tika网站的引用:
“Apache Tika™工具包使用现有解析器库从各种文档中检测和提取元数据和文本内容 - 从PPT到CSV到PDF。Tika将这些解析器统一到单个界面下,使您能够轻松解析超过一千种不同的文件类型。Tika对于搜索引擎索引、内容分析、翻译等非常有用。”
以下是pdfbox网站的引用:
“Apache PDFBox™库是一个用于处理PDF文档的开源Java工具。该项目允许创建新的PDF文档、操作现有文档并从文档中提取内容。”
以下是poi网站的引用:
“多年来,Apache POI为所有支持的项目提供了基本的文本提取。此外,除了(纯)文本外,这些还提供了访问与给定文件相关联的元数据(例如标题和作者)的功能。”

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接