我要完成的任务描述:
- 输入两个(N不是必需的)HTML文档。
- 标准化HTML格式。
- 比较这两个文档 -- 外部样式不重要,但文档内联任何内容都将包括在内。
- 确定HTML块元素级别的差异。
扩展上一个点:
想象一下同一站点的两个页面,它们都有一个侧边栏,这个侧边栏可能是一个被复制/粘贴的共同祖先。每个页面对侧边栏进行了一些微小的更改。比较将揭示这些更改,然后可以“向上走”DOM以找到它们共有的第一个块级元素,或者只是默认为<body>
。在这种情况下,我想向上走并发现它们共享一个常见的<div id="sidebar">
。
我熟悉DaisyDiff和应用程序类似--在CMS世界中。
我也开始尝试使用google diff-patch库。
我想提出这种非特定问题,希望能够征求任何人认为可能有帮助的建议或指导。目前,如果你拿枪指着我的脑袋说“写代码”,我会重新用Python编写DaisyDiff并添加这个块级逻辑。但我想也许有更好的方法,Anyone have a diff algorithm for rendered HTML?的答案让我感到温暖和舒适。