我需要比较两个日志文件,但忽略每行的时间戳部分(确切地说是前12个字符)。是否有一个好的工具或聪明的awk命令可以帮助我完成?
@EbGreen说:
我会提取日志文件并剥离每行开头的时间戳,然后将文件保存到不同的文件中。 然后比较这些文件。
那可能是最好的选择,除非您的比较工具有特殊功能。例如,您可以
cut -b13- file1 > trimmed_file1
cut -b13- file2 > trimmed_file2
diff trimmed_file1 trimmed_file2
如您的 shell 支持,可以查看 @toolkit 的答复以获得一行代码的优化解决方案,并避免使用额外的文件。至少可以在 Bash 3.2.39 中实现...
使用 cut
命令回答是可以的,但有时在 diff
输出中保留时间戳是可取的。由于提问者的问题是关于忽略时间戳(而不是删除它们),我在此分享我的巧妙命令行:
diff -I '^#' <(sed -r 's/^((.){12})/#\1\n/' 1.log) <(sed -r 's/^((.){12})/#\1\n/' 2.log)
sed
通过进程替换,隔离出时间戳(指位于#
之前以及\n
之后)。diff -I '^#'
忽略掉包含这些时间戳的行(以#
开头的行)。两个日志文件内容相同但时间戳不同:
$> for ((i=1;i<11;i++)) do echo "09:0${i::1}:00.000 data $i"; done > 1.log
$> for ((i=1;i<11;i++)) do echo "11:00:0${i::1}.000 data $i"; done > 2.log
基本的diff
命令行显示所有行都不同:
$> diff 1.log 2.log
1,10c1,10
< 09:01:00.000 data 1
< 09:02:00.000 data 2
< 09:03:00.000 data 3
< 09:04:00.000 data 4
< 09:05:00.000 data 5
< 09:06:00.000 data 6
< 09:07:00.000 data 7
< 09:08:00.000 data 8
< 09:09:00.000 data 9
< 09:01:00.000 data 10
---
> 11:00:01.000 data 1
> 11:00:02.000 data 2
> 11:00:03.000 data 3
> 11:00:04.000 data 4
> 11:00:05.000 data 5
> 11:00:06.000 data 6
> 11:00:07.000 data 7
> 11:00:08.000 data 8
> 11:00:09.000 data 9
> 11:00:01.000 data 10
diff -I '^#'
命令不会显示任何差异(时间戳被忽略):$> diff -I '^#' <(sed -r 's/^((.){12})/#\1\n/' 1.log) <(sed -r 's/^((.){12})/#\1\n/' 2.log)
$>
修改 2.log
文件(将第 6 行的 data
替换为 foo
),然后再次检查:
$> sed '6s/data/foo/' -i 2.log
$> diff -I '^#' <(sed -r 's/^((.){12})/#\1\n/' 1.log) <(sed -r 's/^((.){12})/#\1\n/' 2.log)
11,13c11,13
11,13c11,13
< #09:06:00.000
< data 6
< #09:07:00.000
---
> #11:00:06.000
> foo 6
> #11:00:07.000
=> 时间戳被记录在diff
输出中!
您还可以使用-y
或--side-by-side
选项来使用并排功能:
$> diff -y -I '^#' <(sed -r 's/^((.){12})/#\1\n/' 1.log) <(sed -r 's/^((.){12})/#\1\n/' 2.log)
#09:01:00.000 #11:00:01.000
data 1 data 1
#09:02:00.000 #11:00:02.000
data 2 data 2
#09:03:00.000 #11:00:03.000
data 3 data 3
#09:04:00.000 #11:00:04.000
data 4 data 4
#09:05:00.000 #11:00:05.000
data 5 data 5
#09:06:00.000 | #11:00:06.000
data 6 | foo 6
#09:07:00.000 | #11:00:07.000
data 7 data 7
#09:08:00.000 #11:00:08.000
data 8 data 8
#09:09:00.000 #11:00:09.000
data 9 data 9
#09:01:00.000 #11:00:01.000
data 10 data 10
sed
如果你的 sed
实现不支持 -r
选项,那么你可能需要计算十二个点号 <(sed 's/^\(............\)/#\1\n/' 1.log)
或者使用其他模式 ;)
sed "s/[ 012][0-9]:[0-5][0-9]:[0-5][0-9]//"
这将从比对对齐算法中过滤出时间戳。
Kdiff3还允许您手动对齐特定行。
kdiff3 --cs LineMatchingPreProcessorCmd="sed \"s/[ 012][0-9]:[0-5][0-9]:[0-5][0-9]//\"" "/path/to/file 1.txt" "/path/to/file 2.txt"
- Colin我想提出一个Visual Studio Code的解决方案:
diff dir1 dir2
,文件名称会被包括在内)。为什么会这样?这个问题能修复吗? - d-b