如何使用Python从PDF文件中提取图表/表格/图形？

Question

8

经过搜索，我没有找到解决这种问题的方法，因此在此发布一个明确的问题。大多数答案涵盖图像/文本提取，这相对容易。

我需要从PDF中以文本（csv）和图像的形式提取表格和图形。

有人能帮我提供一种高效的Python 3.6代码来解决这个问题吗？

到目前为止，我可以使用startmark = b"\xff\xd8"和endmark = b"\xff\xd9"提取jpgs，但不是所有表格和图形都是普通的jpgs，因此我的代码无法实现。

例如，我想要从第11页提取表格，从第12页提取图形作为图像或其他可行的形式，该链接给出了示例。如何处理？

- Aakash Basu

嗨，Aakash，很好奇你是如何完成这个任务的。特别是如何识别/提取图表和图形。 - qwertynik

嗨，Aakash，我需要相同的代码，使用Python代码从PDF中提取图表。你找到任何解决方案了吗？ - codelover

2个回答

0

尝试使用PyMuPdf(https://github.com/pymupdf/PyMuPDF/tree/1.18.3)来合并文本、条形码、线条和坐标轴。它还有许多额外的实用工具。

- rameshreddy kv

请查看此链接（https://github.com/pymupdf/PyMuPDF-Utilities）中的extract-graphics。 - rameshreddy kv

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- milonimrod · Accepted Answer

要提取表格，您可以使用camelot。

这里有一篇文章介绍了它。