我发现许多帖子提出了读取PDF文件的解决方案。我想逐字逐句地阅读PDF文件并对其进行处理。人们建议使用pdfMiner将整个PDF文件转换为文本文件。但是我想要逐字逐句地读取PDF文件。有人可以推荐一个能够实现这一点的库吗?
您可以轻松地将pdf转储为文本,这是您应该尝试的第一件事情。您还可以转储XML(见下文),但无法修改PDF。 XML是从中获得PDF的最完整表示。
您必须阅读示例以在Python代码中使用它,它没有太多文档。
PdfMiner附带的示例可以将PDF转换为xml,最好显示如何在代码中使用该库。它还以可读性较高的(就xml而言)形式显示提取出的内容。
您可以使用参数调用它,告诉它“分析”PDF。如果这样做,它将把字母汇聚成文本块(单词和句子;句子将具有空格,因此很容易在Python中将其标记化为单词)。