将PDF文档转换为XML文件,最好使用ITextSharp。

3

我有一个PDF文档,需要从中读取数据。我发现将这个PDF转换成XML文档后,里面有方便的标签可以读取,所以我需要一种方法在代码中将我的文件转换为XML,以便使用映射文件将数据内容读取到数据库中。


我的“过于广泛”的感觉在敏感。你能否尝试澄清一下你的问题?你有哪种类型的PDF文件,需要从中提取什么样的XML格式?你在这个任务的某个特定部分卡住了吗? - millimoose
一个PDF文件。我需要从一堆PDF文档中提取数据。现在它们没有按任何标准格式排版,但我知道其中一些是使用Microsoft Excel生成的,而其他一些则不是。但我想将它们转换为XML,因为我相信XML更容易操作。 - Kobojunkie
嗯,我有点卡住了。我不知道IText中的哪些类可以让我实时将Pdf文档转换为Xml。从目前为止我所获取的示例和信息来看,似乎更多的是关于将XML/HTML转换为PDF,这与我想要的相反。 - Kobojunkie
搜索“iText提取”会给我很多结果,包括这个似乎是教程级别的:http://what-when-how.com/itext-5/parsing-pdfs-part-2-itext-5/ 。API文档中的这一部分也很相关:http://api.itextpdf.com/itext/com/itextpdf/text/pdf/parser/package-summary.html 。最后但并非最不重要的,请查看iText in Action书籍:http://www.manning.com/lowagie/。(实际上,对于iText问题,首先应该检查的是这本书。) - millimoose
此外,请注意从PDF中提取文本非常棘手。有很大的可能性,最终结果可能不值得付出所需的努力。 - millimoose
显示剩余5条评论
1个回答

0

使用PDFMiner

PDFMiner是一款从PDF文档中提取信息的工具。它包括一个PDF转换器,可以将PDF文件转换为其他文本格式(如XML / HTML)。

与其他PDF相关工具不同,它完全专注于获取和分析文本数据。 PDFMiner允许您获取页面上文本的精确位置,以及字体或线条等其他信息。

它具有可扩展的PDF解析器,可用于除文本分析之外的其他目的。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接