正则表达式去除文档类型声明

Question

正则表达式去除文档类型声明

6

我正在寻找一个正则表达式，以从一组XML文档中删除以下doctype声明：

<!DOCTYPE refentry [ <!ENTITY % mathent SYSTEM "math.ent"> %mathent; ]>

<!DOCTYPE book PUBLIC "-//OASIS//DTD DocBook MathML Module V1.1b1//EN"
          "http://www.oasis-open.org/docbook/xml/mathml/1.1CR1/dbmathml.dtd">

这是stackoverflow等平台上非常常见的问题，但是所有的答案都无法处理两种情况。

我的天真想法是<!DOCTYPE((.|\n|\r)*?)(\"|])>可以正确匹配第二种情况，但却在第一种情况下失败(它在第一个">停止并留下了%mathen; ]>未匹配)。如果我尝试让正则表达式更贪婪一点，它将尝试消耗整个文档。

完整的测试用例:

- The Fiddler

2个回答

1

我建议使用以下正则表达式：

 <!DOCTYPE.*(\[[\s\S]*?\])?>

尝试使用这个链接

- Bikash Prusty

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Joachim Isaksson · Accepted Answer

编辑：修正了评论匹配，感谢TheFiddler

嗯，你可以使用类似下面这样（并不是完全优美的）方法：

<!DOCTYPE[^>[]*(\[[^]]*\])?>

它匹配一个<!和直到>或[的所有内容，后跟由[]包围的可选部分，最后跟一个>。

用于测试的JSfiddle。

更多细节；

<!DOCTYPE     -- matches the string <!DOCTYPE
[^>[]*        -- matches anything up to a > or [
(\[[^]]*\])?  -- matches an optional section surrounded by []
>             -- matches the string >