PDF文件内容是中文(字符,而不是图片等),因此可能使用不同的字体。
我的代码:
>>> import tabula
>>> df = tabula.read_pdf('/data/proj/smartinvestment/cninfo_download_reports/pdf/601101/2016-12-29/1202969937.PDF', pages='all')
错误:
Feb 02, 2018 6:44:34 PM org.apache.pdfbox.pdmodel.font.PDCIDFontType2 <init>
INFO: OpenType Layout tables used in font ABCDEE+ËÎÌå are not implemented in PDFBox and will be ignored
最终的DataFrame为空。
我在stackoverflow上找不到任何想法。我应该如何解决这个问题?是否需要导入一些字体或者还有其他原因导致了这个错误?