得票数最多 'pdf-scraping' 问题

标签列表

关联标签

417得票13回答

Python模块用于将PDF转换为文本。

有没有Python模块可以将PDF文件转换成文本？我尝试了在Activestate中找到的一段代码，它使用了pypdf，但生成的文本没有空格，也没有用处。

pythonpdftext-extractionpdf-scraping

51得票3回答

从PDF文件中提取/识别表格 Python

是否有任何开源库支持表格识别和提取？我的意思是：判断表格结构是否存在从其内容中对表格进行分类以有用的输出格式（如JSON / CSV等）提取表格数据我查看了关于这个主题的类似问题，并找到了以下内容： PDFMiner 解决了第三个问题，但似乎用户需要为每个表格指定PDF...

pythonpdfscrapepdf-parsingpdf-scraping

51得票5回答

将PDF文件中的数据读入R程序

这真的可能吗！？！我有一堆需要导入数据库的旧报告，但它们都是PDF格式。是否有任何R包可以读取PDF？还是应该交给命令行工具？这些报告是在Excel中制作然后转换成PDF格式的，因此它们具有常规结构，但有许多空白“单元格”。

linuxrpdfscrapepdf-scraping

31得票10回答

如何在 Python 中解锁一个“受保护”（只读）的 PDF？

我在Python中使用pdfminer来读取下面这段代码中的pdf中的文本。现在我收到一个错误信息，内容如下：File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdfpage.py", line 124, in get_pages ...

pythonpdfpdfminerpdf-scraping

24得票4回答

使用R识别PDF表格

我正在尝试从一些PDF报告中提取表格数据。我看到了一些使用pdftools和类似包的示例，我成功地获取了文本，但是我只想提取表格。是否有一种方法可以使用R来识别和提取仅仅是表格？

rtext-miningpdf-scraping

15得票7回答

跨越多个页面的大型PDF表格的抓取

我正在尝试抓取跨越多个页面的PDF表格。我尝试了很多方法，但最好的方法似乎是使用 pdftotext -layout ，如此处建议所述。问题在于生成的文本文件不易于处理，因为表格布局在页面之间不同，因此列未对齐。还请注意以“ Solsonès”开头的行中缺少的值： ...

rperlms-accesspdf-scraping

12得票2回答

如何使用pdfminer3k读取pdf文件？

我正在使用Python 3.5，想要从PDF文件中逐行读取文本。尝试使用pdfminer3k但是无法在任何地方得到正确的语法。怎样才能正确使用它？

python-3.xpython-3.5pdf-scraping

10得票3回答

解析PDF文件

我有一个需求是基于文件内容将一个大的PDF文档分成小文件。我们使用BCL easyPDF来处理PDF文件。easyPDF可以根据页码拆分PDF文档，但不能根据文件内容拆分文档。此外，它没有搜索功能（就我所知，如果我错了，请告诉我），无法确定内容的位置。现在有人能告诉我如何使用.NET找到P...

c#parsingpdfpdf-scraping

9得票1回答

谷歌有一个图像搜索API吗？

我正在寻找一个API或程序（最好是Python和开源的），可以让我下载谷歌图像搜索中前n张关于自行车的图片。如果它能够下载普通搜索中前n个PDF文件，那就更好了。由于并非所有图片和PDF文件都可以在谷歌上找到，而且还有许多其他搜索引擎，因此一个可以从Yahoo或Bing等搜索引擎中爬取结果的程...

pythonweb-scrapinggoogle-image-searchpdf-scraping

7得票6回答

最佳的从PDF中提取数据的方法是什么？

我有成千上万个PDF文件需要提取数据。这是一个示例pdf。我想从示例PDF中提取此信息。我可以使用Node.js、Python或其他有效的方法。我对Python和Node.js的了解很少。我尝试使用以下代码： import PyPDF2 try: pdfFile...

pythonnode.jspdfpdf-scraping