得票数最多 'pdfminer' 问题

关联标签

119得票6回答

我正在寻找有关如何使用Python的PDFMiner从PDF文件中提取文本的文档或示例。看起来PDFMiner更新了他们的API，所有相关的例子都包含过时的代码（类和方法已经改变）。我找到的那些使从PDF文件中提取文本任务更容易的库正在使用旧的PDFMiner语法，所以我不确定该怎么做。 ...

74得票15回答

我正在尝试使用pdfminer从PDF中获取文本数据。我已经成功地使用pdfminer命令行工具pdf2txt.py将这些数据提取到.txt文件中。然后，我会使用Python脚本清理.txt文件。我希望将pdf提取过程纳入脚本并省去这个步骤。我找到了这个链接，但是我没有成功使用任何解决方案...

58得票4回答

我希望使用PDFMiner从PDF文件中提取所有文本框和其坐标信息。许多其他的Stack Overflow帖子介绍如何按顺序提取所有文本，但是如何在其中间步骤中获取文本和其位置信息呢？给定一个PDF文件，输出的结果应该类似于：489, 41, "Signature" ...

38得票13回答

我有很多文件，其中一些是扫描成PDF格式的图像文件，另一些则是完整或部分文本的PDF文件。有没有一种方法可以检查这些文件，以确保我们只处理那些扫描成图像的PDF文件，而不是完整或部分文本的PDF文件？环境：PYTHON 3.6

31得票10回答

我在Python中使用pdfminer来读取下面这段代码中的pdf中的文本。现在我收到一个错误信息，内容如下：File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdfpage.py", line 124, in get_pages ...

23得票1回答

PDFMiner的文档中说： PDFMiner允许获取页面上文本的确切位置然而，我没有找到如何做到这一点。 PDFMiner的“文档”相当简洁，因此我不知道如何做到这一点。

22得票7回答

Traceback (most recent call last): File "g:\mydrive\ \pdftotext_pdfminer.py", line 3, in <module> from pdfminer.pdfinterp import PDFRes...

21得票5回答

我已经学习了几个教程，但是我无法使这段代码运行起来，我已经从StringIO更改为BytesIO（我认为是这样的）我不确定为什么'banana'没有输出任何内容，我认为错误可能是误导性的，这是否与我追随Python2.7教程并尝试将其翻译成Python3有关?errors: File "/...

20得票1回答

我正在为我的PDF数据语料库开发自定义搜索引擎。我有一个转换层，可以使用Apache Tika和GROBID将PDF内容转储为文本。我已经完成了搜索层和视图，可以返回搜索结果列表。现在，我想在原始PDF文件中添加高亮显示功能，以突出显示出现搜索术语的行。是的，如果必要，我想修改PDF文...

17得票1回答

我正在PyCharm上的项目中工作，想使用pdfminer将PDF文件转换为文本文件。我的问题是当我运行应用程序时，它无法正常工作，并显示以下错误信息：ModuleNotFoundError: No module named 'pdfminer.high_level' import re f...