我已经阅读了很多关于PDF提取和库(如iText)的内容,但我仍然没有找到一种从PDF中提取图像和文本(带坐标)的解决方案。
任务是扫描产品目录PDF并提取每个图像。每个图像旁边都有一个“图像代码”,还有一个列出显示在图像上的产品的“产品代码”列表。
我知道无法从这样的PDF中提取结构化信息,但是通过所有图像和文本对象的坐标,我可以编写代码来识别与图像距离相近的链接文本。然后,我可以使用正则表达式拆分文本,并找出哪些是“产品代码”,哪些是“图像代码”等。
您能推荐一个好的、有效的解决方案吗?
任务是扫描产品目录PDF并提取每个图像。每个图像旁边都有一个“图像代码”,还有一个列出显示在图像上的产品的“产品代码”列表。
我知道无法从这样的PDF中提取结构化信息,但是通过所有图像和文本对象的坐标,我可以编写代码来识别与图像距离相近的链接文本。然后,我可以使用正则表达式拆分文本,并找出哪些是“产品代码”,哪些是“图像代码”等。
您能推荐一个好的、有效的解决方案吗?