我正在使用Apache PDFbox库从PDF文件中提取已突出显示的文本(即黄色背景)。我对这个库完全不熟悉,不知道应该使用哪个类来实现此目的。到目前为止,我已经使用下面的代码从注释中提取了文本。
PDDocument pddDocument = PDDocument.load(new File("test.pdf"));
List allPages = pddDocument.getDocumentCatalog().getAllPages();
for (int i = 0; i < allPages.size(); i++) {
int pageNum = i + 1;
PDPage page = (PDPage) allPages.get(i);
List<PDAnnotation> la = page.getAnnotations();
if (la.size() < 1) {
continue;
}
System.out.println("Total annotations = " + la.size());
System.out.println("\nProcess Page " + pageNum + "...");
// Just get the first annotation for testing
PDAnnotation pdfAnnot = la.get(0);
System.out.println("Getting text from comment = " + pdfAnnot.getContents());
现在我需要获取突出显示的文本,如果有代码示例将不胜感激。