我有一个包含表单字段的 pdf
文件,需要自动将数据导出到一个 xml
文件中。 这是我为测试创建的示例表单的屏幕截图:
注意:使用Acrobat Professional手动导出时,可以通过单击Tools > Form > Export Form Data
并最终选择xml扩展名作为文件输出来很好地导出它。这是我手动导出时得到的结果:
<?xml version="1.0" encoding="UTF-8"?>
<fields>
<first_name>John</first_name>
<last_name>Doe</last_name>
</fields>
然而,我需要将其自动化,例如使用Python脚本、Java实现或某些命令行工具。有任何想法可以用哪些库或工具将表单字段数据导出为xml
吗?该工具或库应该是开源的,这样我可以将其整合到我的工作流程中。
我已经尝试过Python的pdfminer
库,它帮助我导出了静态部分(如静态表单头
、名字:
和姓氏:
)的pdf文件:但如何导出表单字段数据(在我的情况下是表单字段first_name
和last_name
的内容)呢?
编辑:可以从此处免费下载sample.pdf文件。
jdom库
可能是将对象转换为xml的好方法。祝你好运! - jimmyp.smith