我正在从各个网站进行数据挖掘的项目中工作,一个好的比喻是收集eBay拍卖的统计数据。然而,除了存储关键数据外,我真的需要确保能够访问原始页面,在某些网站上,原始页面可能不是永久性的 - 就像eBay在拍卖结束后删除拍卖页面一样。我希望有一个类似于Google缓存页面的系统,例如在自己的服务器上存储页面的副本。然而,我已经被告知可能会有复杂性以及对我的数据库所需资源的巨大影响。
保存的页面不包括服务器端的CSS和JS文件,这会是一个问题吗?这意味着从缓存数据库/文件系统提供服务时,它可能会被渲染得很糟糕。
那么页面上的照片或图像呢?
我认为5Kb对于页面保存来说太低了,我想知道是否可以保存包含JS的页面...特别是AJAX页面。我很难想象会发生什么,但也许你只需要看到页面上的文本?
有人知道Google的缓存是如何工作的吗?