如何使用Python从PDF文件中提取图表/表格/图形?

8

经过搜索,我没有找到解决这种问题的方法,因此在此发布一个明确的问题。大多数答案涵盖图像/文本提取,这相对容易。

我需要从PDF中以文本(csv)和图像的形式提取表格和图形。

有人能帮我提供一种高效的Python 3.6代码来解决这个问题吗?

到目前为止,我可以使用startmark = b"\xff\xd8"和endmark = b"\xff\xd9"提取jpgs,但不是所有表格和图形都是普通的jpgs,因此我的代码无法实现。

例如,我想要从第11页提取表格,从第12页提取图形作为图像或其他可行的形式,该链接给出了示例。如何处理?

https://hartmannazurecdn.azureedge.net/media/2369/annual-report-2017.pdf


嗨,Aakash, 很好奇你是如何完成这个任务的。特别是如何识别/提取图表和图形。 - qwertynik
嗨,Aakash,我需要相同的代码,使用Python代码从PDF中提取图表。你找到任何解决方案了吗? - codelover
2个回答

1

4
图片基本完成,但最大的挑战在于那些图表不是图片,它们是由文本、条形、折线和坐标轴组成的混合体。我真的很期待了解人们如何从高质量的PDF文件中解析出它们。 - Aakash Basu
1
遇到这个错误:RuntimeError: 请确保已安装Ghostscript。尽管我已经安装了Ghostscript 9.27。有什么帮助吗? - Aakash Basu

0

请查看此链接(https://github.com/pymupdf/PyMuPDF-Utilities)中的extract-graphics。 - rameshreddy kv

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接