如何使用Java编程程序下载网页

122

我想要获取网页的HTML并保存到一个String中,以便我可以对其进行一些处理。同时,我该如何处理不同类型的压缩。

使用Java,我该如何实现这个功能?


这基本上是 https://dev59.com/9XNA5IYBdhLWcg3wh-cC 的一个特例。 - Robin Green
11个回答

-1
我使用了这篇帖子的实际答案(url),并将输出写入文件中。
package test;

import java.net.*;
import java.io.*;

public class PDFTest {
    public static void main(String[] args) throws Exception {
    try {
        URL oracle = new URL("http://www.fetagracollege.org");
        BufferedReader in = new BufferedReader(new InputStreamReader(oracle.openStream()));

        String fileName = "D:\\a_01\\output.txt";

        PrintWriter writer = new PrintWriter(fileName, "UTF-8");
        OutputStream outputStream = new FileOutputStream(fileName);
        String inputLine;

        while ((inputLine = in.readLine()) != null) {
            System.out.println(inputLine);
            writer.println(inputLine);
        }
        in.close();
        } catch(Exception e) {

        }

    }
}

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接