38得票13回答
如何检查PDF文件是否为扫描图片或包含文字

我有很多文件,其中一些是扫描成PDF格式的图像文件,另一些则是完整或部分文本的PDF文件。 有没有一种方法可以检查这些文件,以确保我们只处理那些扫描成图像的PDF文件,而不是完整或部分文本的PDF文件? 环境:PYTHON 3.6

35得票2回答
如果在PDF文档中识别文本结构如此困难,那么PDF阅读器是如何做到如此出色的呢?

我一直在尝试编写一个简单的控制台应用程序或PowerShell脚本来提取大量PDF文档中的文本。有几个库和CLI工具可以完成此任务,但事实证明没有一个能够可靠地识别文档结构。特别是我担心的是文本列的识别。即使是非常昂贵的PDFLib TET工具也经常混淆两个相邻文本列的内容。 经常注意到PD...

22得票10回答
如何在Python 3.7中从PDF中提取文本

我正在使用Python从PDF文件中提取文本。 我的主要目标是创建一个程序,读取银行对账单并提取其文本以更新Excel文件,以便轻松记录每月支出。 目前,我只专注于从pdf文件中提取文本,但我不知道该如何做。 目前最好和最简单的从PDF文件中提取文本的方法是什么? 最好使用哪个库? 我应该如何...

14得票3回答
如何从PDF文件中提取特定标题下的文本?

我希望能够使用Python从PDF中提取特定标题下的文本。 例如,我有一个包含引言、摘要和目录等标题的PDF文件。我需要仅提取“摘要”标题下的文本。 我该如何做到这一点?

12得票5回答
如何自动将PDF表单字段导出为XML

我有一个包含表单字段的 pdf 文件,需要自动将数据导出到一个 xml 文件中。 这是我为测试创建的示例表单的屏幕截图: 注意:使用Acrobat Professional手动导出时,可以通过单击Tools > Form > Export Form Data并最终选择xml扩...

11得票3回答
如何提高印地语文本提取?

我正在尝试从 PDF 中提取印地语文本。 我尝试了从 PDF 中提取所有方法,但没有一个有效。 有关为什么不起作用的说明,但没有答案。 因此,我决定将 PDF 转换为图像,然后使用 pytesseract 提取文本。 我已经下载了印地语训练数据,但是它也会给出高度不准确的文本。 这是 PDF...

7得票1回答
如何提取PDF文件中表格的内容?

我想提取PDF中表格的内容,就像这样: 我使用iText java PDF库编写了这个Java程序,它可以逐行读取PDF文件的内容,但我不知道如何获取表格的内容。 import com.itextpdf.text.pdf.PdfReader; import com.itextpdf.t...