我正在开展一个小项目,分析我觉得有趣的一些网站内容;这是一个让我自娱自乐/自我启发的真正DIY项目,因此我希望尽可能多地自己编写代码。
显然,我需要数据来供应我的应用程序,我想编写一个小爬虫,将大约20k个html页面写入我的硬盘上的文本文件中。 但是,当我在SO和其他网站上查看时,我找不到任何有关如何实现的信息。 这可行吗?似乎有可用的开源选项(webpshinx?),但如果可能的话,我想自己编写这个。
Scheme是我唯一熟悉的语言,但我想利用这个项目学习一些Java知识,所以如果有任何Racket或Java库对此有帮助,我会感兴趣。
因此,我想总结一下我的问题,有哪些好的资源可以开始这个项目?我的爬虫如何请求其他服务器的信息?我是否必须编写简单的解析器进行解析,还是因为我想将整个html文件保存为txt而不必要?
显然,我需要数据来供应我的应用程序,我想编写一个小爬虫,将大约20k个html页面写入我的硬盘上的文本文件中。 但是,当我在SO和其他网站上查看时,我找不到任何有关如何实现的信息。 这可行吗?似乎有可用的开源选项(webpshinx?),但如果可能的话,我想自己编写这个。
Scheme是我唯一熟悉的语言,但我想利用这个项目学习一些Java知识,所以如果有任何Racket或Java库对此有帮助,我会感兴趣。
因此,我想总结一下我的问题,有哪些好的资源可以开始这个项目?我的爬虫如何请求其他服务器的信息?我是否必须编写简单的解析器进行解析,还是因为我想将整个html文件保存为txt而不必要?