我需要将用户输入的文本以 HTML 和 CSS
格式存储到我的数据库中。
情况是这样的:
RadEditor,用户从 MSWord 中复制文本到此编辑器,然后我使用该格式将此文本存储在数据库中。然后,在报告或某些标签中检索数据时,会出现一些标记包裹文本!
我使用正则表达式删除所有格式,但有时成功,有时不成功。
private static Regex oClearHtmlScript = new Regex(@"<(.|\n)*?>", RegexOptions.Compiled);
public static string RemoveAllHTMLTags(string sHtml)
{
sHtml = sHtml.Replace(" ", string.Empty);
sHtml = sHtml.Replace(">", ">");
sHtml = sHtml.Replace("<", "<");
sHtml = sHtml.Replace("&", "&");
if (string.IsNullOrEmpty(sHtml))
return string.Empty;
return oClearHtmlScript.Replace(sHtml, string.Empty);
}
我想知道如何使用HTMLAgility或其他可靠的方法删除所有格式,以确保文本是纯净的?
注意:
数据库中此字段的数据类型为Lvarchar