最新 'pdftotext' 问题

关联标签

8得票2回答

使用Python解析PDF教材中的索引页

我需要从PDF页面提取文本并将其与缩进一起转换为CSV文件。我应该按照类和子类类型层次结构以及页码拆分文本。例如，在图像中，“应用程序服务器”是类，“Apache Tomcat”是页面编号275中的子类。以下是CSV的预期输出。我已经使用Tika解析器解析PDF，但无法在解析后的内容中保持正确...

pythonpdfminerpdftotextnamed-entity-recognitionnlp

16得票5回答

在不依赖操作系统的情况下，使用Node.js提取PDF文本

有没有一种在nodejs中提取PDF文本的方法，且不需要任何操作系统依赖项（例如pdf2text或Windows上的xpdf）？我找不到任何“原生”的nodejs pdf软件包。它们总是在现有的操作系统命令之上进行封装/实用程序。

node.jspdfpdftotext

9得票3回答

使用PdfMiner和PyPDF2提取文本并合并列

我正在尝试使用pdfMiner解析pdf文件文本，但提取出的文本被合并了。我使用来自以下链接的pdf文件[编辑：链接已损坏/指向潜在恶意软件]。无论是何种类型的输出（文件/字符串）我都可以胜任。这是代码，它为我返回提取的文本作为字符串，但由于某些原因，列被合并了。 from pdfmin...

pythonpypdfpdftotext

69得票7回答

Linux的命令行PDF阅读器

嘿，我已经有一段时间在寻找一个命令行PDF查看器了。因为我喜欢在Linux上不使用X，并经常在远程机器上工作，所以我希望有一个工具来阅读PDF。有很多真正好的图形程序（evince、okular、acroread等）来完成这个工作，所以我认为至少应该有一个像样的文本模式工具。但是我甚至都不...

linuxpdfcommand-linencursespdftotext

12得票2回答

如何使用pdftotext将文本文件保存为UTF-8格式

我正在使用开源工具pdftotext将PDF格式文件转换为文本文件。请问如何将文本文件以UTF-8编码格式保存，以便保留所有重音字符在文本文件中。我使用以下命令进行转换，它会将内容提取到文本文件，但无法看到任何重音字符。 pdftotext -enc UTF-8 book1.pdf book...

utf-8pdftotext

12得票2回答

从PDF中提取表格数据

有没有一种一致的方法可以从PDF文件中提取表格？有什么工具可用？我目前为止做了什么：我尝试使用pdftotext工具。它有一个选项可以转换为HTML布局。这个方法存在的问题：表格信息在HTML输出中未保留我期望看到<table>标签，但所有内容都在&lt...

pdfpdftotextpdf-to-html

35得票7回答

在Python 3.6上无法安装pdftotext，缺少poppler。

我该如何正确安装pdftotext？当我在Python 3.6中安装pdftotext时，出现了以下错误信息。我还尝试通过下载zip文件手动安装软件包，但仍然遇到了相同的错误。 pdftotext/pdftotext.cpp(4): fatal error C1083: Cannot o...

pythoninstallationpdftotext

12得票2回答

使用spawn命令结合管道符（|）运用两个命令

我正在将一个文档转换为PDF（使用unoconv），并在内存中进行打印（使用pdftotext）到终端上执行以下命令： unoconv -f pdf --stdout sample.doc | pdftotext -layout -enc UTF-8 - out.txt 正在工作。现在我...

node.jschild-processspawnpdftotextunoconv

64得票5回答

如何等待一个流传输完成？（Nodejs）

我有一个包含 Promise 的 for 循环数组，因此我使用 Promise.all 来遍历它们，并在之后调用 then 方法。let promises = []; promises.push(promise1); promises.push(promise2); promises.push...

node.jsasynchronouspromisepipepdftotext

7得票6回答

错误：struct.error：拆包需要一个长度为16的字符串参数

在使用pdfminer (pdf2txt.py)处理PDF文件file (2.pdf)时，我收到了下面的错误： pdf2txt.py 2.pdf Traceback (most recent call last): File "/usr/local/bin/pdf2txt.py", ...

pythonpdfpdftotextpdfminerpdf-parsing