得票数最多 'pdftotext' 问题 - 第2页

关联标签

9得票3回答

使用PdfMiner和PyPDF2提取文本并合并列

我正在尝试使用pdfMiner解析pdf文件文本，但提取出的文本被合并了。我使用来自以下链接的pdf文件[编辑：链接已损坏/指向潜在恶意软件]。无论是何种类型的输出（文件/字符串）我都可以胜任。这是代码，它为我返回提取的文本作为字符串，但由于某些原因，列被合并了。 from pdfmin...

pythonpypdfpdftotext

8得票2回答

使用Python解析PDF教材中的索引页

我需要从PDF页面提取文本并将其与缩进一起转换为CSV文件。我应该按照类和子类类型层次结构以及页码拆分文本。例如，在图像中，“应用程序服务器”是类，“Apache Tomcat”是页面编号275中的子类。以下是CSV的预期输出。我已经使用Tika解析器解析PDF，但无法在解析后的内容中保持正确...

pythonpdfminerpdftotextnamed-entity-recognitionnlp

7得票6回答

错误：struct.error：拆包需要一个长度为16的字符串参数

在使用pdfminer (pdf2txt.py)处理PDF文件file (2.pdf)时，我收到了下面的错误： pdf2txt.py 2.pdf Traceback (most recent call last): File "/usr/local/bin/pdf2txt.py", ...

pythonpdfpdftotextpdfminerpdf-parsing