得票数最多 'pdftotext' 问题

关联标签

69得票7回答

Linux的命令行PDF阅读器

嘿，我已经有一段时间在寻找一个命令行PDF查看器了。因为我喜欢在Linux上不使用X，并经常在远程机器上工作，所以我希望有一个工具来阅读PDF。有很多真正好的图形程序（evince、okular、acroread等）来完成这个工作，所以我认为至少应该有一个像样的文本模式工具。但是我甚至都不...

linuxpdfcommand-linencursespdftotext

64得票5回答

如何等待一个流传输完成？（Nodejs）

我有一个包含 Promise 的 for 循环数组，因此我使用 Promise.all 来遍历它们，并在之后调用 then 方法。let promises = []; promises.push(promise1); promises.push(promise2); promises.push...

node.jsasynchronouspromisepipepdftotext

35得票7回答

在Python 3.6上无法安装pdftotext，缺少poppler。

我该如何正确安装pdftotext？当我在Python 3.6中安装pdftotext时，出现了以下错误信息。我还尝试通过下载zip文件手动安装软件包，但仍然遇到了相同的错误。 pdftotext/pdftotext.cpp(4): fatal error C1083: Cannot o...

pythoninstallationpdftotext

25得票7回答

如何在命令行中将PDF表格数据提取为CSV格式？

我希望从这里提取所有行，同时忽略列标题以及所有页面标题，即Supported Devices。pdftotext -layout DAC06E7D1302B790429AF6E84696FCFAB20B.pdf - \ | sed '$d' ...

pdfgreppdftotext

21得票2回答

使用R语言将PDF文件转换为文本文件，以进行文本挖掘。

我有将近一千份PDF期刊文章存放在一个文件夹中。我需要对整个文件夹中所有文章的摘要进行文本挖掘。目前我正在执行以下操作：dest <- "~/A1.pdf" # set path to pdftotxt.exe and convert pdf to text exe <- "C:...

rtext-miningtmpdftotext

16得票5回答

在不依赖操作系统的情况下，使用Node.js提取PDF文本

有没有一种在nodejs中提取PDF文本的方法，且不需要任何操作系统依赖项（例如pdf2text或Windows上的xpdf）？我找不到任何“原生”的nodejs pdf软件包。它们总是在现有的操作系统命令之上进行封装/实用程序。

node.jspdfpdftotext

12得票2回答

使用spawn命令结合管道符（|）运用两个命令

我正在将一个文档转换为PDF（使用unoconv），并在内存中进行打印（使用pdftotext）到终端上执行以下命令： unoconv -f pdf --stdout sample.doc | pdftotext -layout -enc UTF-8 - out.txt 正在工作。现在我...

node.jschild-processspawnpdftotextunoconv

12得票2回答

如何使用pdftotext将文本文件保存为UTF-8格式

我正在使用开源工具pdftotext将PDF格式文件转换为文本文件。请问如何将文本文件以UTF-8编码格式保存，以便保留所有重音字符在文本文件中。我使用以下命令进行转换，它会将内容提取到文本文件，但无法看到任何重音字符。 pdftotext -enc UTF-8 book1.pdf book...

utf-8pdftotext

12得票2回答

从PDF中提取表格数据

有没有一种一致的方法可以从PDF文件中提取表格？有什么工具可用？我目前为止做了什么：我尝试使用pdftotext工具。它有一个选项可以转换为HTML布局。这个方法存在的问题：表格信息在HTML输出中未保留我期望看到<table>标签，但所有内容都在&lt...

pdfpdftotextpdf-to-html

10得票2回答

从PDF文件中删除页码、页眉和页脚

我想解析一个pdf文件，为此我正在使用pdftotext实用程序将pdf文件转换为文本文件，现在我想从文本文件中删除页码、页眉和页脚。我正在使用以下语法转换pdf文件：pdftotext -layout input.pdf output.txt 有人能帮我解决这个问题吗？

pdftotext