使用Adobe API提取PDF内容

3
我正在尝试读取一个包含多个表格的PDF文件。使用Adobe API与Java,如果所有单元格都只有一行内容,我可以提取表格中的内容。但是,如果某个单元格有多行,提取的内容就会移到下一行,导致与表头对齐不上。
有没有办法从PDF中按原样提取内容,以保持表格格式与PDF显示的方式相同?我目前正在使用\t转义字符来提取数据。

通常从打印格式中提取原始数据需要应用程序定位锚点以确定状态转换的时机。在您的表格中,您可能会有以分割线或某种关键文本形式存在的锚点。我不喜欢做这种工作。 - undefined
2个回答

1
一个老问题-但现在有了新的答案。Adobe将发布一个全新的PDF Extract API(目前处于私人测试版,但预计于2021年6月发布),旨在解决此问题和其他许多问题。我不是Adobe的拉拉队员,所以我不会在这里大书特书; 但我们是非常满意的客户。

0

PDF中的文本并没有格式化。它们只是看起来被格式化了。同样地,表格只是线条和其中的文本。你需要一个能够智能重构页面元素的PDF库。但无论这个库有多聪明,总会有一些断行的情况。

这是我公司开发的Java PDF库PDFOne尝试的一张截图。公平地说,可能还有其他能做到同样效果的库。你需要对你的PDF集合进行一些测试,看哪个更好。

http://www.gnostice.com/nl_article.asp?id=232&t=PDF_Text_Search_And_PDF_Text_Extraction_Using_PDFOne_for_Java

enter image description here


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接