我希望能够使用PDFMiner提取在线可用的pdf文件的内容。
我的代码基于文档中提供的代码,用于从硬盘上提取PDF文件的内容。
那个方法非常好,只需要做一些小的修改就行了。
现在,我尝试使用
我该如何从
如果我的问题不清楚,请告诉我。
我的代码基于文档中提供的代码,用于从硬盘上提取PDF文件的内容。
# Open a PDF file.
fp = open('mypdf.pdf', 'rb')
# Create a PDF parser object associated with the file object.
parser = PDFParser(fp)
# Create a PDF document object that stores the document structure.
document = PDFDocument(parser)
那个方法非常好,只需要做一些小的修改就行了。
现在,我尝试使用
urllib2.openurl
来打开在线PDF文件,但是它不起作用。我得到一个错误信息:coercing to Unicode: need string or buffer, instance found
。我该如何从
urllib2.openurl
获取一个字符串(或其他内容),使其与当我给出PDF文件名(而不是URL)时open
函数所得到的内容相同?如果我的问题不清楚,请告诉我。