我希望能够使用Apache PDFBox从给定的PDF文件中提取文本。我编写了以下代码:
```html
```html
I would like to extract text from a given PDF file with Apache PDFBox.
I wrote this code:
```PDFTextStripper pdfStripper = null;
PDDocument pdDoc = null;
COSDocument cosDoc = null;
File file = new File(filepath);
PDFParser parser = new PDFParser(new FileInputStream(file));
parser.parse();
cosDoc = parser.getDocument();
pdfStripper = new PDFTextStripper();
pdDoc = new PDDocument(cosDoc);
pdfStripper.setStartPage(1);
pdfStripper.setEndPage(5);
String parsedText = pdfStripper.getText(pdDoc);
System.out.println(parsedText);
然而,我遇到了以下错误:
Exception in thread "main" java.lang.NullPointerException
at org.apache.fontbox.afm.AFMParser.main(AFMParser.java:304)
我将pdfbox-1.8.5.jar和fontbox-1.8.5.jar添加到类路径中。
编辑
我在程序开头添加了System.out.println("程序开始");
。
我运行了程序,然后得到了与上面提到的相同的错误,并且程序开始
没有出现在控制台中。
因此,我认为我可能有一个类路径或其他问题。
谢谢。
main()
方法吗?异常看起来像是你启动了org.apache.fontbox.afm.AFMParser
的main()
,这个看起来是 PDFBox 的代码,而不是你的代码。 - mkl