将HTML转换为文本的DOT NET代码

3
我正在创建一个小程序来从网站上获取文本..然后查找答案(完成后会发布脚本)。
为了做到这一点,我需要将 <script><style> 中的所有HTML代码转换为简单易读的英文文本。
我已经手动删除了所有html标签,但是有些CSS条目很难摆脱。 有没有简单的想法将HTML转换为纯文本?
谢谢。

为了做到这一点,我需要将body和/body标签内的所有HTML代码转换为简单易读的英文文本。 - Arjun
如果您删除标签,应该不会留下任何CSS条目。也许您可以发布一些难以摆脱的示例? - Francis
我的意思是前一个评论中“不应该”有任何CSS... - Francis
2个回答

5

1
解析DOM并使用InnerText不是更好吗? - okutane
是的,如果它是有效的HTML...我们从来没有得到过一个有效的HTML,例如,将DOM解析为XML会在<br>上抛出错误,但不会在<br/>上。如果您100%确定您有正确的HTML,那很好。 - balexandre

0

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接