我有一个网站更新程序,它将每个p元素转换为文本框,用户输入内容后,每个文本框都会转换回p,然后我获取结果HTML并将其存储在我的SQL数据库中。
我的问题:在Internet Explorer浏览器中,当我尝试重新获取HTML时,它稍微改变了HTML。例如:
// From this originally
<img id="headingpic"/><div id="myContent">
// To this
<img id="headingpic"/>
<div id="myContent">
这很重要,因为现在显示的图片和下面的div之间有一个垂直间隙。
有时候IE会插入"\n ",有时候是" \n",有时候只是"\n"。我正在尝试想出一个正则表达式来删除这些换行符和空格,无论它们的模式是什么。我非常困难地想出了正则表达式,它们对我来说似乎很神秘。
如果我解释我的算法,你能建议一下正则表达式中实现这一点的“字符”吗?
- 对于每个">"字符:忽略任何空格或换行符,如果下一个字符是"<",则继续
- 对于"<"后面的每个字符,如果它不等于">",则删除它(或将其替换为"")
我正在尝试在JavaScript或Python中完成这个操作:
# Python: should I use replace for this? Would my regular expression look something like this?
HTML_CONTENT.replace( "^[ \t\n\r]" ) # this removes all whitespace as far as I know