request = mechanize.Request('the example url below')
response = mechanize.urlopen(request)
它只是返回包含HTML页面 - 我似乎无法提取PDF(该页面内也没有链接到它)。
通过查看真实浏览器中的标头(使用Firefox中的LiveHTTPHeaders扩展),我知道会发出许多HTTP请求,最终返回PDF(并在浏览器中显示)。我想拦截它并下载它。具体而言,我会得到一系列302和304响应,最终导致PDF。
以下是我正在爬取的链接属性示例: href='javascript:open_window_delivery("http://bibliotecadigitalhispanica.bne.es:80/verylonglinktoaccess");'
似乎如果我执行嵌入在href属性中的JavaScript,则最终可以到达PDF文档本身。我已尝试过selenium,但有点困惑-阅读其文档后我不太确定如何使用它。有人能建议一种方法(通过我尚未尝试过的模块或通过我尝试过的模块),以便我可以做到这一点吗?
非常感谢任何帮助。
附注:如果您想查看我正在尝试复制的内容,我正在尝试访问以下页面中提到的PDF链接(具有PDF图标): http://bibliotecadigitalhispanica.bne.es/R/9424CFL1MDQGLGBB98QSV1HFAD2APYDME4GQKCBSLXFX154L4G-01075?func=collections-result&collection_id=1356