背景
我正在尝试阅读和分析网页内容,重点是页面的主要内容-而不包括菜单、侧边栏、脚本和其他HTML杂乱无章的内容。
- 我尝试了NReadability,但它会在太多情况下抛出异常并失败。除此之外,它是一个很好的解决方案。
- HTML Agility Pack在这里不是我需要的,因为我想要摆脱非内容代码。
编辑:我正在寻找一个可以筛选内容并只从页面中提取“相关”文本的库(即对于这个页面,“review”、“chat”、“meta”、“about”和“faq”来自顶部栏目将不会显示,以及“user contributions licensed under”)。
那么,您知道还有哪些稳定的 .Net 库可以从网站中提取内容吗?