我该如何移除这些内容:
<td> </td>
或者
<td width="7%"> </td>
我该如何从我的JSoup 'Document'中获取内容?我尝试了很多方法,但这些不间断空格字符与普通的JSoup表达式或选择器不匹配。
<td> </td>
或者
<td width="7%"> </td>
我该如何从我的JSoup 'Document'中获取内容?我尝试了很多方法,但这些不间断空格字符与普通的JSoup表达式或选择器不匹配。
HTML实体
(Unicode字符NO-BREAK SPACE U+00A0)在Java中可以用字符\u00a0
表示。假设您想删除每个包含该字符作为自己文本的元素(因此不是每个行,正如您在评论中所说),则以下内容应该有效:
document.select(":containsOwn(\u00a0)").remove();
如果你真的想要移除整个行,那么最好的方法就是逐行扫描 HTML。
表示的确切字符\u00a0
。这已经在答案中解释过了。如果对您不起作用,那么我猜您的实际问题是不同的。也许您是想说您在Web浏览器本身呈现的文本中字面上看到了
?换句话说,HTML源代码包含实际上是&nbsp;
而不是
? - BalusC
<td>
元素内部?顺便说一下,您是否知道MSIE浏览器在完全空的<td>
元素上呈现存在问题?<td> </td>
是解决此MSIE不良行为的经典解决方法。 - BalusCresponse.replaceAll(" ", "")
这样的东西? - tw16BufferedReader
将URL#openStream()
输入,然后在其中包含“ ”时忽略readLine()
。 - BalusC