经过搜索,我没有找到解决这种问题的方法,因此在此发布一个明确的问题。大多数答案涵盖图像/文本提取,这相对容易。
我需要从PDF中以文本(csv)和图像的形式提取表格和图形。
有人能帮我提供一种高效的Python 3.6代码来解决这个问题吗?
到目前为止,我可以使用startmark = b"\xff\xd8"和endmark = b"\xff\xd9"提取jpgs,但不是所有表格和图形都是普通的jpgs,因此我的代码无法实现。
例如,我想要从第11页提取表格,从第12页提取图形作为图像或其他可行的形式,该链接给出了示例。如何处理?
https://hartmannazurecdn.azureedge.net/media/2369/annual-report-2017.pdf