在Java中镜像网站

3
我需要从我的Java应用程序中镜像一些网站。我正在寻找一个开源的Java库来完成这项工作,但没有找到任何合适的。是否有人知道一些友好的Java工具来检索整个网站,或者我必须坚持从我的程序中执行wget?非常感谢。
2个回答

1
我发现这种库最大的问题是缺乏对CSS解析的支持,因此在镜像网站时,导入的样式表、背景图像等也会被下载。
wget已经内置了对此的支持(至少在最近的版本中),虽然从Java运行这个程序不是一个非常干净的解决方案,但我建议先尝试一下,看看是否符合您的需求。

0
我建议使用爬虫。 AspiderSperowider 使用 Apache HttpClient lib(我的最爱 httplib)并通过跟随链接来爬取网站。由于它们是 OSS,所以您应该能够将其集成到您的软件中。它们目前也没有维护,但如果您想要在 Java 中编写自己的镜像工具,Apache HttpClient lib 是一个不错的起点。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接