花了大约30分钟在SO上寻找解决此问题的明确方法。虽然这个问题似乎已经被问过很多次,但是:
我正在寻找一个明确而经过试验的解决该问题的方法,而不是进行广泛的辩论+关闭帖子等 :) :)
提前感谢您。
- 大部分解决方案使用正则表达式。
- 有很多帖子说不应该使用正则表达式来处理HTML。
- 有许多答案只是给出了一个指向HTMLAgilityPack(在Codeplex上)的链接,但没有实际使用此包来满足所述要求的示例。
- 我想提供一个允许的HTML标签列表。
- 不在允许列表中的标签应该与其属性和内容一起被删除。
- 允许列表中的任何标签都应该保留其属性和内容。
- 该解决方案应应对不同的本地化-可能会使用语言和字符集与英语不同的用户。
- [添加] 该解决方案应处理诸如论坛帖子之类的文本,而不是完整的HTML页面-因此像b u i等标记将被允许,但script div等标记则不允许且应该被删除。
我正在寻找一个明确而经过试验的解决该问题的方法,而不是进行广泛的辩论+关闭帖子等 :) :)
提前感谢您。