我正在尝试从HTML文档中获取文本,这是一个简单的任务。因此,我使用HTMLdoc.DocumentNode.InnerText来实现这一点。问题是,在某些网站上,当不同标签内的单词之间没有空格时,DocumentNode.InnerText将这些单词连接成一个单词,使其无用。
例如,我正在阅读包含以下行的网站
<span>İstanbul</span><ul><li><a href="i1.htm">Adana</a></li>
我的结果是 "İstanbulAdana",这没有意义。
我在HTMLAgilityPack文档和Google上都找不到解决方案。
我是否漏掉了什么?
谢谢。