417得票13回答
Python模块用于将PDF转换为文本。

有没有Python模块可以将PDF文件转换成文本?我尝试了在Activestate中找到的一段代码,它使用了pypdf,但生成的文本没有空格,也没有用处。

51得票3回答
从PDF文件中提取/识别表格 Python

是否有任何开源库支持表格识别和提取? 我的意思是: 判断表格结构是否存在 从其内容中对表格进行分类 以有用的输出格式(如JSON / CSV等)提取表格数据 我查看了关于这个主题的类似问题,并找到了以下内容: PDFMiner 解决了第三个问题,但似乎用户需要为每个表格指定PDF...

51得票5回答
将PDF文件中的数据读入R程序

这真的可能吗!?! 我有一堆需要导入数据库的旧报告,但它们都是PDF格式。是否有任何R包可以读取PDF?还是应该交给命令行工具? 这些报告是在Excel中制作然后转换成PDF格式的,因此它们具有常规结构,但有许多空白“单元格”。

31得票10回答
如何在 Python 中解锁一个“受保护”(只读)的 PDF?

我在Python中使用pdfminer来读取下面这段代码中的pdf中的文本。现在我收到一个错误信息,内容如下:File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdfpage.py", line 124, in get_pages ...

24得票4回答
使用R识别PDF表格

我正在尝试从一些PDF报告中提取表格数据。 我看到了一些使用pdftools和类似包的示例,我成功地获取了文本,但是我只想提取表格。 是否有一种方法可以使用R来识别和提取仅仅是表格?

15得票7回答
跨越多个页面的大型PDF表格的抓取

我正在尝试抓取跨越多个页面的PDF表格。我尝试了很多方法,但最好的方法似乎是使用 pdftotext -layout ,如此处建议所述。问题在于生成的文本文件不易于处理,因为表格布局在页面之间不同,因此列未对齐。还请注意以“ Solsonès”开头的行中缺少的值: ...

12得票2回答
如何使用pdfminer3k读取pdf文件?

我正在使用Python 3.5,想要从PDF文件中逐行读取文本。尝试使用pdfminer3k但是无法在任何地方得到正确的语法。 怎样才能正确使用它?

10得票3回答
解析PDF文件

我有一个需求是基于文件内容将一个大的PDF文档分成小文件。我们使用BCL easyPDF来处理PDF文件。easyPDF可以根据页码拆分PDF文档,但不能根据文件内容拆分文档。此外,它没有搜索功能(就我所知,如果我错了,请告诉我),无法确定内容的位置。 现在有人能告诉我如何使用.NET找到P...

9得票1回答
谷歌有一个图像搜索API吗?

我正在寻找一个API或程序(最好是Python和开源的),可以让我下载谷歌图像搜索中前n张关于自行车的图片。如果它能够下载普通搜索中前n个PDF文件,那就更好了。由于并非所有图片和PDF文件都可以在谷歌上找到,而且还有许多其他搜索引擎,因此一个可以从Yahoo或Bing等搜索引擎中爬取结果的程...

7得票6回答
最佳的从PDF中提取数据的方法是什么?

我有成千上万个PDF文件需要提取数据。这是一个示例pdf。我想从示例PDF中提取此信息。 我可以使用Node.js、Python或其他有效的方法。我对Python和Node.js的了解很少。 我尝试使用以下代码: import PyPDF2 try: pdfFile...