我正在尝试使用Python库newspaper和Wayback Machine的档案,该机器存储了被归档的旧网站版本。理论上,可以从这些存档中查询和下载旧新闻文章。
例如,下面的代码查询特定存档日期的CNBC存档。
这些不是CNBC存档版本中的实际文章。但报纸在今天的CNBC版本中非常好用。
我想它会因为url的格式(包含两个http)而混淆。有人有关于如何从 Wayback Machine存档中提取文章的建议吗?
例如,下面的代码查询特定存档日期的CNBC存档。
import newspaper
url = 'http://web.archive.org/web/20161201123529/http://www.cnbc.com/'
paper = newspaper.build(url, memoize_articles = False )
尽管存档网站本身包含2016年12月1日的实际新闻文章链接,但报纸模块似乎没有将它们捕捉到。相反,您会得到诸如以下的URL:
https://blog.archive.org/2016/10/23/defining-web-pages-web-sites-and-web-captures/
这些不是CNBC存档版本中的实际文章。但报纸在今天的CNBC版本中非常好用。
我想它会因为url的格式(包含两个http)而混淆。有人有关于如何从 Wayback Machine存档中提取文章的建议吗?