9得票3回答
使用PdfMiner和PyPDF2提取文本并合并列

我正在尝试使用pdfMiner解析pdf文件文本,但提取出的文本被合并了。我使用来自以下链接的pdf文件[编辑:链接已损坏/指向潜在恶意软件]。 无论是何种类型的输出(文件/字符串)我都可以胜任。这是代码,它为我返回提取的文本作为字符串,但由于某些原因,列被合并了。 from pdfmin...

8得票2回答
使用Python解析PDF教材中的索引页

我需要从PDF页面提取文本并将其与缩进一起转换为CSV文件。我应该按照类和子类类型层次结构以及页码拆分文本。例如,在图像中,“应用程序服务器”是类,“Apache Tomcat”是页面编号275中的子类。以下是CSV的预期输出。我已经使用Tika解析器解析PDF,但无法在解析后的内容中保持正确...

7得票6回答
错误:struct.error:拆包需要一个长度为16的字符串参数

在使用pdfminer (pdf2txt.py)处理PDF文件file (2.pdf)时,我收到了下面的错误: pdf2txt.py 2.pdf Traceback (most recent call last): File "/usr/local/bin/pdf2txt.py", ...