16得票2回答
导入错误: 无法从 'pdfminer.utils' 导入名为 'open_filename' 的名称

在导入 pdfminer.high_level 时,我遇到了一个错误:“无法从 pdfminer.utils 中导入名称为 open_filename 的项”。 我尝试了以下步骤: pip3 install pdfminer.six import pdfminer import pdfm...

16得票7回答
PDFminer:提取带有字体信息的文本

我发现了这个问题,但是它使用命令行,我不想用subprocess来调用Python脚本并解析HTML文件以获取字体信息。 我想使用PDFminer作为一个库,我发现了这个问题,但是它们只是关于提取纯文本,没有其他信息,比如字体名称、字体大小等。

15得票4回答
PDFminer:PDF文本提取不允许错误

我正在尝试从我从互联网上爬取的PDF中提取文本,但是当我尝试下载它们时,出现以下错误: File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdfpage.py", line 124, in get_pages raise PD...

15得票6回答
使用Python从PDF中提取超链接

我有一个PDF文档,其中有一些超链接,我需要从PDF中提取所有文本。我使用了PDFMiner库和来自这里的代码来提取文本。但是,它并不提取超链接。 例如,我有一段文本,上面写着查看此链接,带有链接。我能够提取单词查看此链接,但我真正需要的是超链接本身,而不是单词。 我该如何做到这一点?理想...

15得票2回答
使用Python pdfMiner每页提取文本?

我尝试使用pypdf和pdfMiner从PDF文件中提取文本。我有一些不友好的PDF文件,只有pdfMiner能够成功提取。我正在使用这里的代码来提取整个文件的文本。然而,我非常希望像pypdf中的pages[i].extract_text()功能一样可以按页面提取文本。是否有人知道如何使用p...

12得票2回答
PDF Miner PDFEncryptionError

我正在尝试从pdf文件中提取文本并尝试识别参考文献。我使用的是pdfminer 20140328。对于未加密的文件,它可以正常运行,但现在我遇到了一个文件,出现了以下错误: "C:\Tools\Python27\lib\site-packages\pdfminer\pdfdocument.p...

11得票4回答
pdfminer - 导入错误:没有名为pdfminer.pdfdocument的模块。

我正在尝试安装pdfMiner以与CollectiveAccess一起使用。我的主机(pair.com)为了帮助我完成这个任务,给了我以下信息: 在编译时,很可能需要指示安装程序使用您的帐户空间而不是尝试安装到操作系统目录中。通常,在安装命令的末尾使用"--home=/usr/home...

10得票2回答
如何在Python 3中使用PDFminer.six?

我想使用pdfminer.six这个工具,它可以与Python3一起用于从PDF文档中提取信息。问题是没有任何好的文档,也没有关于如何使用该工具的源代码示例。我已经尝试过从StackOverflow上获取的一些代码,但它们都不起作用。以下是我的代码。from pdfminer.converte...

10得票1回答
PDFMiner提取的文本中的CID该如何处理?

我有一些印地语的PDF文档,并且可以提取其中的文本。我使用了Python 3.6的pdfminer.six来进行提取。输出结果看起来像这样: 正如您所见,有许多字符被转换成"(cid :number)"的形式。 进一步分析后,我发现PDF包含CMAP,将字符编码映射到字形索引。因此,CI...

10得票1回答
pdfminer.high_level未显示出来。

我正在尝试使用pdfminer.high_level.extract_text()将PDF转换为纯文本。但是我一直收到这个错误消息: File "/Users/ian/Documents/Resume Selector Project/resumeBackend.py", line 5, i...