我需要在一个特定的矩形区域内从pdf文档中提取文本。具体流程如下:首先将pdf转换为jpg图像,然后用户在图片上绘制选择矩形。接着,我需要从pdf文档中提取所有在该选择区域内的文本。有没有什么免费的pdf库可以从C#进行访问并使用呢?
List<string> linestringlist = new List<string>();
PdfReader reader = new PdfReader(pdfFilename);
iTextSharp.text.Rectangle rect = new iTextSharp.text.Rectangle(coordinate1, coordinate2, coordinate3, coordinate4);
RenderFilter[] renderFilter = new RenderFilter[1];
renderFilter[0] = new RegionTextRenderFilter(rect);
ITextExtractionStrategy textExtractionStrategy = new FilteredTextRenderListener(new LocationTextExtractionStrategy(), renderFilter);
string text = PdfTextExtractor.GetTextFromPage(reader, 1, textExtractionStrategy);
linestringlist
? - B.K.linestringList
有什么用? - Tk1993(免责声明 - 我在Atalasoft的PDF产品部门工作)Atalasoft's PdfReader 可以实现此功能。虽然它不是免费软件,但它运行非常良好。以下是代码示例:
using (PdfTextDocument doc = new PdfTextDocument(pathToFile)) {
PdfTextPage page = doc.GetPage(pageNumber);
string text = page.GetTextInBox(yourSelection);
}