8得票2回答
使用Python解析PDF教材中的索引页

我需要从PDF页面提取文本并将其与缩进一起转换为CSV文件。我应该按照类和子类类型层次结构以及页码拆分文本。例如,在图像中,“应用程序服务器”是类,“Apache Tomcat”是页面编号275中的子类。以下是CSV的预期输出。我已经使用Tika解析器解析PDF,但无法在解析后的内容中保持正确...

16得票5回答
在不依赖操作系统的情况下,使用Node.js提取PDF文本

有没有一种在nodejs中提取PDF文本的方法,且不需要任何操作系统依赖项(例如pdf2text或Windows上的xpdf)?我找不到任何“原生”的nodejs pdf软件包。它们总是在现有的操作系统命令之上进行封装/实用程序。

9得票3回答
使用PdfMiner和PyPDF2提取文本并合并列

我正在尝试使用pdfMiner解析pdf文件文本,但提取出的文本被合并了。我使用来自以下链接的pdf文件[编辑:链接已损坏/指向潜在恶意软件]。 无论是何种类型的输出(文件/字符串)我都可以胜任。这是代码,它为我返回提取的文本作为字符串,但由于某些原因,列被合并了。 from pdfmin...

69得票7回答
Linux的命令行PDF阅读器

嘿,我已经有一段时间在寻找一个命令行PDF查看器了。 因为我喜欢在Linux上不使用X,并经常在远程机器上工作,所以我希望有一个工具来阅读PDF。有很多真正好的图形程序(evince、okular、acroread等)来完成这个工作,所以我认为至少应该有一个像样的文本模式工具。但是我甚至都不...

12得票2回答
如何使用pdftotext将文本文件保存为UTF-8格式

我正在使用开源工具pdftotext将PDF格式文件转换为文本文件。请问如何将文本文件以UTF-8编码格式保存,以便保留所有重音字符在文本文件中。我使用以下命令进行转换,它会将内容提取到文本文件,但无法看到任何重音字符。 pdftotext -enc UTF-8 book1.pdf book...

12得票2回答
从PDF中提取表格数据

有没有一种一致的方法可以从PDF文件中提取表格? 有什么工具可用? 我目前为止做了什么: 我尝试使用pdftotext工具。 它有一个选项可以转换为HTML布局。 这个方法存在的问题: 表格信息在HTML输出中未保留 我期望看到<table>标签,但所有内容都在&lt...

35得票7回答
在Python 3.6上无法安装pdftotext,缺少poppler。

我该如何正确安装pdftotext? 当我在Python 3.6中安装pdftotext时,出现了以下错误信息。我还尝试通过下载zip文件手动安装软件包,但仍然遇到了相同的错误。 pdftotext/pdftotext.cpp(4): fatal error C1083: Cannot o...

12得票2回答
使用spawn命令结合管道符(|)运用两个命令

我正在将一个文档转换为PDF(使用unoconv),并在内存中进行打印(使用pdftotext)到终端上执行以下命令: unoconv -f pdf --stdout sample.doc | pdftotext -layout -enc UTF-8 - out.txt 正在工作。现在我...

64得票5回答
如何等待一个流传输完成?(Nodejs)

我有一个包含 Promise 的 for 循环数组,因此我使用 Promise.all 来遍历它们,并在之后调用 then 方法。let promises = []; promises.push(promise1); promises.push(promise2); promises.push...

7得票6回答
错误:struct.error:拆包需要一个长度为16的字符串参数

在使用pdfminer (pdf2txt.py)处理PDF文件file (2.pdf)时,我收到了下面的错误: pdf2txt.py 2.pdf Traceback (most recent call last): File "/usr/local/bin/pdf2txt.py", ...