如何从动态生成的网页中检索HTML内容

Question

3

2年前，我放弃了一个工作良好的Ruby网络爬虫，它可以自动下载每周1周的电视电影列表。今天重新开始处理时，发现Ruby不能访问正在显示的网页的控件或数据。

调试显示，脚本现在生成加载后续网页的文档。初始脚本运行时还会修改当前文档（删除链接）。使用任何URL都会导致加载相同的初始网页。

我正在寻求如何继续访问显示网页中的数据的建议。我对JavaScript并不很了解，但如果有明确的计划，我会去学习。我认为我已经找到了加载第二个网页的href，但它只会再次加载初始页面，说明其他机制在发挥作用（即脚本中提到了cookie）。

要下载信息需要至少28个网页，通常情况下要处理几百个网页以下载电影信息。

- user3285799

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Joel Guerra · Accepted Answer

你已经发现了，用简单的HTTP请求无法抓取动态内容的网页。需要模拟实际使用该网页，以便JavaScript运行并生成所需内容。这篇教程可能会帮助你实现你想要的功能。