我有一个需求,需要提取html <body>
中出现的所有文本。示例Html输入:
<html>
<title>title</title>
<body>
<h1> This is a big title.</h1>
How are doing you?
<h3> I am fine </h3>
<img src="abc.jpg"/>
</body>
</html>
输出结果应该是:-
This is a big title. How are doing you? I am fine
我希望您可以使用HtmlAgility来完成这个任务,不要使用正则表达式。
我知道如何加载HtmlDocument,然后使用类似于“//body”的xquery来获取主体内容。但是,我该如何像输出中所示那样剥离html?
提前感谢您的帮助 :)
HtmlNode
上调用类似于InnerText
属性的东西。 - Uwe Keim