在Android中解析HTML

Question

在Android中解析HTML

3

我试图解析HTML以获取特定数据，但是在换行符方面遇到了问题，至少我认为这就是问题所在。我使用简单的子字符串方法来分解HTML，因为我预先知道我要查找什么。

以下是我的解析方法：

public static void parse(String response, String[] hashItem, String[][] startEnd) throws Exception
{

    for (i = 0; i < hashItem.length; i++)
    {
        part = response.substring(response.indexOf(startEnd[i][0]) + startEnd[i][0].length());
        value = part.substring(0, part.indexOf(startEnd[i][1]));
        DATABASE.setHash(hashItem[i], value);
    }
}

这是一个让我困扰的HTML示例。

<table cellspacing=0 cellpadding=2 class=smallfont>
<tr onclick="lu();" onmouseover="style.cursor='hand'">
<td class=bodybox nowrap>&nbsp;     21,773,177,147 $&nbsp;</td><td></td>
<td class=bodybox nowrap>&nbsp;        629,991,926 F&nbsp;</td><td></td>
<td class=bodybox nowrap>&nbsp;             24,537 P&nbsp;</td><td></td>
<td class=bodybox nowrap>&nbsp;                  0 T&nbsp;</td>
<td></td><td class=bodybox nowrap>&nbsp;RT&nbsp;</td>

文本中存在隐藏的回车字符，但当我尝试将它们添加到我正在使用的字符串中时，效果并不好，甚至根本无法工作。是否有一种方法或更好的方法来从HTML中剥离隐藏字符，使其更容易解析？非常感谢您的帮助。

- Alejandro Huerta

4个回答

1

您可以尝试使用 Android 中可用的 XMLPullParser。您可以使用 StringBuffer 在标签之间添加字符。

- DeRagan

0

尝试使用正则表达式获取所需信息： http://java.sun.com/developer/technicalArticles/releases/1.4regex/ 您甚至可以使用它来删除隐藏字符。或者也许使用String.Replace来删除换行符？

- BeRecursive

我找出了replaceAll("\n", "")的错误之处，现在它已经正常工作了，谢谢。 - Alejandro Huerta

0

你可以使用XMLReader来解析HTML文件，例如，根据我所知，可以参考这篇文章 http://www.ibm.com/developerworks/xml/library/x-andbene1/。

- Kharizmi

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- droidgren · Accepted Answer

如果您想让解析变得非常简单，请尝试Jsoup：

此示例将下载页面、解析并获取文本。

Document doc = Jsoup.connect("http://jsoup.org").get();

Elements tds = doc.select("td.bodybox");

for (Element td : tds) {
  String tdText = td.text();
}