搜索特定文件类型的网络爬虫

3
作为一项研究的一部分,我需要通过网络尽可能多地下载免费可用的RDF(资源描述框架-*.rdf)文件。有哪些Python中可用的理想库/框架可以做到这一点?是否有任何网站/搜索引擎能够做到这一点?我尝试了Google的filetype:RDF搜索。最初,Google显示了696万个结果。然而,当你浏览单个结果页面时,结果急剧下降到205个。我编写了一个脚本来筛选爬取和下载文件,但205对于我的研究来说不够,我确信在网络上有更多的文件。因此,我真的需要一个文件爬虫。我想知道是否有任何在线或离线工具可用于此目的,或者是否有Python中的框架/示例脚本可以实现此目的。非常感谢您在这方面提供的任何帮助。

好问题,我需要做类似的事情。我知道Teleport Pro可以爬取文件类型,但可能不能从google.com上爬取,也许有另一个网站可以以可以下载的方式列出来自google.com的结果... Teleport Pro可以爬取PDF文件的网站,我用它得到了100 MB的MIDI文件。 - bandybabboon
5个回答

1

0
你有没有注意到某个页面底部类似于“谷歌已隐藏相似结果,点击此处显示所有结果”的文本?这可能会有所帮助。

0

我知道我的回答有点晚了 - 但对于未来的搜索者来说 - http://sindice.com/ 是一个很好的RDF文档索引


0
Teleport Pro虽然可能无法从Google复制太大的内容,但它可以处理返回Google结果的代理网站。我知道,事实上,如果我想的话,我可以在一天内下载10,000个PDF文件。它具有文件类型说明符和许多选项。

0

这里有一个解决方法:

从Chrome扩展或类似程序中获取“下载大师”

在Google或其他搜索引擎上搜索结果,将Google设置为每页100个

选择-显示所有文件

输入您的文件扩展名,.rdf按回车键

点击下载

每次可以单击100个文件,不错。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接