有没有人知道我可以使用的PDF文件解析器,以从纯文本pdf文件中提取文本部分?具体来说,我想要一种可靠地提取特定于注释文本部分的方法。
Delphi、C#正则表达式都可以。
PDF文件解析器 的文章似乎正是您所需要的。它解释了PDF的格式,并提供了解析器的完整源代码(以及另一个用于模型可视化的项目)。
解析器使用特定于格式的术语,但您可以轻松地使用可视化工具来学习要查找的内容。
不确定它是否支持您需要的功能,但我们一直在使用abcPDF并取得了一些成功。
看看PDFBox
abcPDF可以让你提取注释,他们的帮助文档中有非常好的章节介绍如何操作,但通常处理注释的代码是:
for (int objectIndex = 0; objectIndex < theDoc.ObjectSoup.Count; objectIndex++)
{
try
{
IndirectObject element = theDoc.ObjectSoup.ElementAt(objectIndex);
string elementType = element.GetType().ToString();
switch (elementType)
{
case "WebSupergoo.ABCpdf8.Objects.Annotation":
//process the annotation, which could be all kinds of stuff
WebSupergoo.ABCpdf8.Objects.Annotation annotation = (WebSupergoo.ABCpdf8.Objects.Annotation)element;
ProcessAnnotation(annotation);
...
我不知道这些PDF解析器的所有功能,但Aspose的功能非常全面。不幸的是,我们遇到了两个错误,我已经等待很长时间让它们被修复。
ITextSharp似乎是.NET中最常见的开源PDF解析器。