我需要比较不同版本的HTML页面格式和文本更改。不幸的是,制作这些页面的人/公司使用某种HTML编辑器每次都重新包装HTML(并添加了大量空格),这使得难以对它们进行差异化处理。因此,我正在寻找一种工具(最好是Java库),可以以删除所有无关空格和换行符的方式重新格式化我的HTML。
也就是说,在
空格可能不能被移除。我不关心
(我已经折叠了多个空格,并在标签之前重新添加换行符而不是空格,以使文本更易读——但仍有太多情况下,例如标题或表格单元格/行之间的新换行符会破坏我的简单“解决方案”。)
也就是说,在
<h1>First Headline</h1> <h2>Second headline</h2>
和
之间的空格应该被删除,但在
<b>formatted</b> <i>text</i>
空格可能不能被移除。我不关心
<pre>
、<textarea>
或<script>
块,也不关心可以改变行为的CSS空格属性——我只是在寻找一个解决方案,它会剥离大部分不必要的空格(最好留下过多的空格而不是过少的)。(我已经折叠了多个空格,并在标签之前重新添加换行符而不是空格,以使文本更易读——但仍有太多情况下,例如标题或表格单元格/行之间的新换行符会破坏我的简单“解决方案”。)