如何从动态生成的网页中检索HTML内容

3
2年前,我放弃了一个工作良好的Ruby网络爬虫,它可以自动下载每周1周的电视电影列表。今天重新开始处理时,发现Ruby不能访问正在显示的网页的控件或数据。
调试显示,脚本现在生成加载后续网页的文档。初始脚本运行时还会修改当前文档(删除链接)。使用任何URL都会导致加载相同的初始网页。
我正在寻求如何继续访问显示网页中的数据的建议。我对JavaScript并不很了解,但如果有明确的计划,我会去学习。我认为我已经找到了加载第二个网页的href,但它只会再次加载初始页面,说明其他机制在发挥作用(即脚本中提到了cookie)。
要下载信息需要至少28个网页,通常情况下要处理几百个网页以下载电影信息。
1个回答

5

你已经发现了,用简单的HTTP请求无法抓取动态内容的网页。需要模拟实际使用该网页,以便JavaScript运行并生成所需内容。这篇教程可能会帮助你实现你想要的功能。


谢谢,这正是我在寻找的。 - user3285799

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接