请看一下apache poi、pdfbox和apache tika。它们是用于处理各种文件格式的Java库,您可以直接在Clojure应用程序中使用它们的Java API。以下是来自Apache Tika网站的引用:“Apache Tika™工具包使用现有解析器库从各种文档中检测和提取元数据和文本内容 - 从PPT到CSV到PDF。Tika将这些解析器统一到单个界面下,使您能够轻松解析超过一千种不同的文件类型。Tika对于搜索引擎索引、内容分析、翻译等非常有用。”以下是pdfbox网站的引用:“Apache PDFBox™库是一个用于处理PDF文档的开源Java工具。该项目允许创建新的PDF文档、操作现有文档并从文档中提取内容。”以下是poi网站的引用:“多年来,Apache POI为所有支持的项目提供了基本的文本提取。此外,除了(纯)文本外,这些还提供了访问与给定文件相关联的元数据(例如标题和作者)的功能。”