我正在处理一个允许我解析网站上 HTML 数据的 Maven 项目。我使用以下代码成功地解析了它:
public void parseData(){
String url = "http://stackoverflow.com/help/on-topic";
try {
Document doc = Jsoup.connect(url).get();
Element essay = doc.select("div.col-section").first();
String essayText = essay.text();
jTextAreaAdem.setText(essayText);
} catch (IOException ex) {
Logger.getLogger(formAdem.class.getName()).log(Level.SEVERE, null, ex);
}
}
目前为止,我还没有遇到任何问题。我可以解析html数据。 我一直在使用jsoup的select方法,并使用“div.col-section”检索数据,这意味着我正在查找类为col-section的div元素。 我想要在文本区域中打印数据。结果是一个巨大的段落,即使网站上的实际数据不止一个段落。所以如何像网站上的数据一样解析数据呢?
HtmlToPlainText
is the best java based solution I know. However I couldn't understand why the authors considered hrefs as a part of plain text. I removed the partelse if (name.equals("a")) append(String.format(" <%s>", node.absUrl("href")));
- ka3ak