将PDF文档转换为XML文件，最好使用ITextSharp。

Question

将PDF文档转换为XML文件，最好使用ITextSharp。

3

我有一个PDF文档，需要从中读取数据。我发现将这个PDF转换成XML文档后，里面有方便的标签可以读取，所以我需要一种方法在代码中将我的文件转换为XML，以便使用映射文件将数据内容读取到数据库中。

- Kobojunkie

我的“过于广泛”的感觉在敏感。你能否尝试澄清一下你的问题？你有哪种类型的PDF文件，需要从中提取什么样的XML格式？你在这个任务的某个特定部分卡住了吗？ - millimoose

一个PDF文件。我需要从一堆PDF文档中提取数据。现在它们没有按任何标准格式排版，但我知道其中一些是使用Microsoft Excel生成的，而其他一些则不是。但我想将它们转换为XML，因为我相信XML更容易操作。 - Kobojunkie

嗯，我有点卡住了。我不知道IText中的哪些类可以让我实时将Pdf文档转换为Xml。从目前为止我所获取的示例和信息来看，似乎更多的是关于将XML/HTML转换为PDF，这与我想要的相反。 - Kobojunkie

搜索“iText提取”会给我很多结果，包括这个似乎是教程级别的：http://what-when-how.com/itext-5/parsing-pdfs-part-2-itext-5/ 。API文档中的这一部分也很相关：http://api.itextpdf.com/itext/com/itextpdf/text/pdf/parser/package-summary.html 。最后但并非最不重要的，请查看iText in Action书籍：http://www.manning.com/lowagie/。（实际上，对于iText问题，首先应该检查的是这本书。） - millimoose

此外，请注意从PDF中提取文本非常棘手。有很大的可能性，最终结果可能不值得付出所需的努力。 - millimoose

显示剩余5条评论

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- codingscientist · Answer 1

使用PDFMiner

PDFMiner是一款从PDF文档中提取信息的工具。它包括一个PDF转换器，可以将PDF文件转换为其他文本格式（如XML / HTML）。

与其他PDF相关工具不同，它完全专注于获取和分析文本数据。 PDFMiner允许您获取页面上文本的精确位置，以及字体或线条等其他信息。

它具有可扩展的PDF解析器，可用于除文本分析之外的其他目的。