得票数最多 'pdf-extraction' 问题

关联标签

38得票13回答

我有很多文件，其中一些是扫描成PDF格式的图像文件，另一些则是完整或部分文本的PDF文件。有没有一种方法可以检查这些文件，以确保我们只处理那些扫描成图像的PDF文件，而不是完整或部分文本的PDF文件？环境：PYTHON 3.6

35得票2回答

我一直在尝试编写一个简单的控制台应用程序或PowerShell脚本来提取大量PDF文档中的文本。有几个库和CLI工具可以完成此任务，但事实证明没有一个能够可靠地识别文档结构。特别是我担心的是文本列的识别。即使是非常昂贵的PDFLib TET工具也经常混淆两个相邻文本列的内容。经常注意到PD...

22得票10回答

我正在使用Python从PDF文件中提取文本。我的主要目标是创建一个程序，读取银行对账单并提取其文本以更新Excel文件，以便轻松记录每月支出。目前，我只专注于从pdf文件中提取文本，但我不知道该如何做。目前最好和最简单的从PDF文件中提取文本的方法是什么？最好使用哪个库？我应该如何...

14得票3回答

我希望能够使用Python从PDF中提取特定标题下的文本。例如，我有一个包含引言、摘要和目录等标题的PDF文件。我需要仅提取“摘要”标题下的文本。我该如何做到这一点？

12得票5回答

我有一个包含表单字段的 pdf 文件，需要自动将数据导出到一个 xml 文件中。这是我为测试创建的示例表单的屏幕截图：注意：使用Acrobat Professional手动导出时，可以通过单击Tools > Form > Export Form Data并最终选择xml扩...

11得票3回答

我正在尝试从 PDF 中提取印地语文本。我尝试了从 PDF 中提取所有方法，但没有一个有效。有关为什么不起作用的说明，但没有答案。因此，我决定将 PDF 转换为图像，然后使用 pytesseract 提取文本。我已经下载了印地语训练数据，但是它也会给出高度不准确的文本。这是 PDF...

7得票1回答

我想提取PDF中表格的内容，就像这样：我使用iText java PDF库编写了这个Java程序，它可以逐行读取PDF文件的内容，但我不知道如何获取表格的内容。 import com.itextpdf.text.pdf.PdfReader; import com.itextpdf.t...