我看到一些帖子介绍将PDF转换为HTML或文本的方法,但它们都是从已保存到计算机上的文件进行处理。是否有办法从网页PDF中提取文本,而不需要下载PDF文件本身(因为我将通过迭代URL列表来处理大量文件)?
我还想知道哪个库是最好的。例如:pdfkit,pdf2txt,pdfminer等?
这是一个示例网站,展示了我要处理的格式:http://www.arkansasrazorbacks.com/wp-content/uploads/2017/02/Miami-Ohio-Game-2.pdf
我还想知道哪个库是最好的。例如:pdfkit,pdf2txt,pdfminer等?
这是一个示例网站,展示了我要处理的格式:http://www.arkansasrazorbacks.com/wp-content/uploads/2017/02/Miami-Ohio-Game-2.pdf