我正在编写一个Shell脚本来跟踪网站的变化,并且如果有变化,给我发送变化内容的电子邮件。 我的想法是使用wget获取html文件的副本,并将其与上次运行脚本时的版本进行比较。 Wget用于保存html文件效果良好,但我在比较文件时遇到了问题。问题在于,我只对html文件中纯文本部分的更改感兴趣,而不是代码、链接等等。 Diff用于查找两个文件中的所有更改,但即使纯文本相同,它也始终返回更改结果。这是因为网站上的每个链接都有一个相应的身份验证令牌,该令牌每次访问页面时都会发生更改。为了仅diff包括纯文本的行,我尝试将其过滤以排除以“<”或“(any_amount_of_spaces)<”开头的任何行。 我已经查看了Diff man页面,但似乎找不到能够满足我的需要的操作符。我对REGEX知之甚少,但是否可以使用diff-I进行解决? 谢谢!