虽然想要创建一个更新版本,但我们也想保留旧条目。这些旧条目包含丑陋的Word生成的HTML,以前从未过滤过。
如果我们转移到新系统,我希望将该HTML清理和过滤,以使网站尽可能符合HTML标准。
然而,仅仅像Jeff Atwood在他的博客中描述的那样或者我所知道的其他方式清理代码,也会破坏样式和格式。
现在,这可能会导致我们的用户反叛,然后一切都会失控——这不是一个很好的主意。
因此问题是:可以在保留基本格式的同时清理Word的HTML吗?(例如:着色、斜体、粗体等)
最好使用公开可用的代码或库,例如HTML Tidy,非常欢迎使用C#示例。