如何逐行比较两个文件而不考虑顺序？

Question

如何逐行比较两个文件而不考虑顺序？

3

我有两个文件，我想检查每个文件中的每一行是否存在。但是，有时每行第二个单词后面的单词顺序可能会不同，这没关系，因为我只对第一个和第二个单词/列之后缺失或额外的单词感兴趣。

文件A:

    foobar A a ab c bd hd
    bar B a c jd sm sldkjn
    baz C boo abd

文件B:

    foobar A a c bd hd ab
    baz C abd boo
    bar B c a jd sm sldkjn

在上面的例子中，那两个文件根据我的标准都是好的。

起初我尝试了

   $ sort -u file_A > outA
   $ sort -u file_B > outB
   $ diff outA outB

这种方式不考虑行顺序。但是，它会考虑每行中单词的顺序。

我该如何忽略第二列之后每行单词的顺序？

- Mark

2

@Prune，原帖中已经清晰地描述了需求、给出了明确的示例、提出了具体问题以及列举了自己尝试过的方法。他还需要做些什么才能让这个问题更好呢？ - Ed Morton

如果文件A有2行相同的baz C boo abd，而文件B只有其中的1行，根据您的标准，这两个文件应该输出什么结果 - 它们是相同的还是不同的？ - Ed Morton

1

@EdMorton 它们应该是不同的。 :) - Mark

我正在寻找解决指定问题的尝试。草稿示例特别处理整行；要“忽略单词顺序”，必须尝试识别单词单位。现在这已经不重要了，因为该问题有一个良好的shell答案和一种蛮力Python方法。 - Prune

@Prune 注意，我提到在每行的第二个单词之后顺序不重要（只有内容很重要），因此单词顺序并非完全被忽略。 - Mark

2个回答

1

Python是你的朋友！您可以从以下内容开始：

with open(path1, 'r') as file1:
with open(path2, 'r') as file2:
    for line in file1:
        words = line.split(" ")
        for line in file2:
            for word in words:
                if word not in line:
                    doSomething()
                else:
                    doSomethingElse()

- albeksdurf

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Ed Morton · Accepted Answer

使用GNU awk的“sorted_in”：

最初的回答：

$ cat tst.awk
BEGIN { PROCINFO["sorted_in"] = "@val_str_asc" }
{
    key = $1 FS $2
    $1 = $2 = ""
    split($0,f)
    for (i in f) {
        key = key FS f[i]
    }
    keys[key]
}
NR==FNR { a[key]++; next }
{ b[key]++ }
END {
    diff = 0

    for (key in keys) {
        if (a[key] > b[key]) {
            print "<", key
            diff = 1
        }
        else if (b[key] > a[key]) {
            print ">", key
            diff = 1
        }
    }

    exit diff
}

每个键的计数和后续的数字比较是必要的，以识别例如file_A中给定键列出了2次，但file_B仅列出了1次的情况，因此文件应该被报告为不同。例如：

原始答案翻译成“最初的回答”

$ cat file_A
foobar A a ab c bd hd
bar B a c jd sm sldkjn
baz C boo abd
baz C boo abd

$ cat file_B
foobar A a c bd hd ab
baz C abd boo
bar B c a jd sm sldkjn

$ awk -f tst.awk file_A file_B
< baz C abd boo