寻找一个PDF文件解析器

Question

寻找一个PDF文件解析器

c#regexdelphipdfunicode

4

有没有人知道我可以使用的PDF文件解析器，以从纯文本pdf文件中提取文本部分？具体来说，我想要一种可靠地提取特定于注释文本部分的方法。

Delphi、C#正则表达式都可以。

- Toby Allen

6个回答

2

你也可以看一下Xpdf (http://www.foolabs.com/xpdf/download.html)。

- Mihai Nita

1

不确定它是否支持您需要的功能，但我们一直在使用abcPDF并取得了一些成功。

- Jeremy

我认为abcPDF不支持解析。 - Richard Szalay

@Richard Szalay，我不确定。功能矩阵显示它支持读取PDF文件，但是它是否提供API中的对象模型来访问PDF的部分是我无法确定的。 - Jeremy

我不会太过分地否认它所宣传的功能集 :) 当我上次使用它时，它并不支持该功能，但它的写作能力确实很好。 - Richard Szalay

1

ABCpdf确实公开了一个对象模型，它们称之为Atoms。 - Mark S. Rasmussen

1

看看PDFBox

- Abhijith

1

abcPDF可以让你提取注释，他们的帮助文档中有非常好的章节介绍如何操作，但通常处理注释的代码是：

    for (int objectIndex = 0; objectIndex < theDoc.ObjectSoup.Count; objectIndex++)
        {
            try
            {
                IndirectObject element = theDoc.ObjectSoup.ElementAt(objectIndex);

                string elementType = element.GetType().ToString();
                switch (elementType)
                {
                    case "WebSupergoo.ABCpdf8.Objects.Annotation":
                       //process the annotation, which could be all kinds of stuff
                        WebSupergoo.ABCpdf8.Objects.Annotation annotation = (WebSupergoo.ABCpdf8.Objects.Annotation)element; 

                        ProcessAnnotation(annotation);

...

- Mike Edgar

0

我不知道这些PDF解析器的所有功能，但Aspose的功能非常全面。不幸的是，我们遇到了两个错误，我已经等待很长时间让它们被修复。

ITextSharp似乎是.NET中最常见的开源PDF解析器。

- Stephen Oberauer

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Richard Szalay · Accepted Answer

PDF文件解析器的文章似乎正是您所需要的。它解释了PDF的格式，并提供了解析器的完整源代码（以及另一个用于模型可视化的项目）。

解析器使用特定于格式的术语，但您可以轻松地使用可视化工具来学习要查找的内容。