119得票6回答
使用Python中的PDFMiner提取PDF文件中的文本?

我正在寻找有关如何使用Python的PDFMiner从PDF文件中提取文本的文档或示例。 看起来PDFMiner更新了他们的API,所有相关的例子都包含过时的代码(类和方法已经改变)。我找到的那些使从PDF文件中提取文本任务更容易的库正在使用旧的PDFMiner语法,所以我不确定该怎么做。 ...

74得票15回答
如何将pdfminer作为库来使用

我正在尝试使用pdfminer从PDF中获取文本数据。我已经成功地使用pdfminer命令行工具pdf2txt.py将这些数据提取到.txt文件中。然后,我会使用Python脚本清理.txt文件。我希望将pdf提取过程纳入脚本并省去这个步骤。 我找到了这个链接,但是我没有成功使用任何解决方案...

58得票4回答
如何从PDF文件中提取文本和文本坐标?

我希望使用PDFMiner从PDF文件中提取所有文本框和其坐标信息。 许多其他的Stack Overflow帖子介绍如何按顺序提取所有文本,但是如何在其中间步骤中获取文本和其位置信息呢? 给定一个PDF文件,输出的结果应该类似于:489, 41, "Signature" ...

38得票13回答
如何检查PDF文件是否为扫描图片或包含文字

我有很多文件,其中一些是扫描成PDF格式的图像文件,另一些则是完整或部分文本的PDF文件。 有没有一种方法可以检查这些文件,以确保我们只处理那些扫描成图像的PDF文件,而不是完整或部分文本的PDF文件? 环境:PYTHON 3.6

31得票10回答
如何在 Python 中解锁一个“受保护”(只读)的 PDF?

我在Python中使用pdfminer来读取下面这段代码中的pdf中的文本。现在我收到一个错误信息,内容如下:File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdfpage.py", line 124, in get_pages ...

23得票1回答
如何使用PDFMiner获取PDF中文本的位置?

PDFMiner的文档中说: PDFMiner允许获取页面上文本的确切位置 然而,我没有找到如何做到这一点。 PDFMiner的“文档”相当简洁,因此我不知道如何做到这一点。

22得票7回答
导入错误:无法从'charset_normalizer.constant'中导入名称为'COMMON_SAFE_ASCII_CHARACTERS'的内容。

Traceback (most recent call last): File "g:\mydrive\ \pdftotext_pdfminer.py", line 3, in <module> from pdfminer.pdfinterp import PDFRes...

21得票5回答
Pdfminer Python 3.5

我已经学习了几个教程,但是我无法使这段代码运行起来,我已经从StringIO更改为BytesIO(我认为是这样的) 我不确定为什么'banana'没有输出任何内容,我认为错误可能是误导性的,这是否与我追随Python2.7教程并尝试将其翻译成Python3有关?errors: File "/...

20得票1回答
使用Python在PDF中突出显示文本

我正在为我的PDF数据语料库开发自定义搜索引擎。 我有一个转换层,可以使用Apache Tika和GROBID将PDF内容转储为文本。我已经完成了搜索层和视图,可以返回搜索结果列表。 现在,我想在原始PDF文件中添加高亮显示功能,以突出显示出现搜索术语的行。是的,如果必要,我想修改PDF文...

17得票1回答
ModuleNotFoundError: 没有名为'pdfminer.high_level'的模块。

我正在PyCharm上的项目中工作,想使用pdfminer将PDF文件转换为文本文件。我的问题是当我运行应用程序时,它无法正常工作,并显示以下错误信息:ModuleNotFoundError: No module named 'pdfminer.high_level' import re f...