如何使用HtmlUnit获取HTML页面

8

我知道你可能会觉得这个问题很愚蠢,但是我需要使用HtmlUnit。然而,它返回的页面要么是XML格式,要么是文本格式。

我不知道如何获取纯HTML(与浏览器返回的源代码相同)

我需要这个,因为我需要使用一些已经写好的模块。有什么想法吗?


Vai先生问你能否“提供使用HTMLUNIT提取网页的完整代码”。 - John Dvorak
我有一个问题,你能帮我吗?这是一个关于Java编程的问题,我需要编写一个程序来读取HTML页面并保存其内容,同时使用JavaScript。 - ducngm.hn
1个回答

25
您可以使用以下代码来实现您的目标:
WebClient webClient = new WebClient();
Page page = webClient.getPage("http://example.com");
WebResponse response = page.getWebResponse();
String content = response.getContentAsString();

请查看WebResponse.html#getContentAsString()方法的javadocs


1
谢谢!:) 我在看到你的评论之前就找到了它! - Afshin Moazami
1
但是有一个问题,它不显示<nonscript>标签中的文本! - Afshin Moazami
2
webClient.getOptions().setJavaScriptEnabled(true) - 添加此行代码 - Panchal Deep

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接