Bash - 检查一个文件中的行是否存在于另一个文件中

4
我想知道如何检查第一列中的一行是否存在于另一个文件中的另一行中。例如,如果我有以下文件:
a.txt:
0000_01_000000049E 7821069312
0000_01_000000049F 7886800896
0000_01_00000004A1 8302987264
0000_01_00000004A2 8469055488
0000_01_00000004A3 8040450048
0000_01_00000004A5 8250165248
0000_01_00000004A6 8116242432
0000_01_00000004A7 8260126720
0000_01_00000004A9 6420892672
0000_01_00000004AA 1076364288
0000_01_00000004AB 7822870528
0000_01_00000004AE 4297589760
0000_01_00000004AF 2360320

b.txt:

0000_01_000000049E,000000,0000_02_00000002AA,7821070336,1451596986,L3,0,0
0000_01_000000049F,000001,0000_02_00000002AA,7886801920,1451623534,L3,0,0
0000_01_00000004A0,000002,0000_02_00000002AA,6888983552,1451051126,L3,0,0
0000_01_00000004A1,000003,0000_02_00000002AA,8302988288,1451618939,L3,0,0
0000_01_00000004A2,000004,0000_02_00000002AA,8469056512,1451605811,L3,0,0
0000_01_00000004A3,000005,0000_02_00000002AA,8040451072,1452180174,L3,0,0
0000_01_00000004A4,000006,0000_02_00000002AA,8569819136,1451541232,L3,0,0
0000_01_00000004A5,000007,0000_02_00000002AA,8250166272,1452181606,L3,0,0
0000_01_00000004A6,000008,0000_02_00000002AA,8116243456,1452013786,L3,0,0
0000_01_00000004A7,000009,0000_02_00000002AA,8260127744,1451420337,L3,0,0
0000_01_00000004A8,000010,0000_02_00000002AA,8454605824,1451542793,L3,0,0
0000_01_00000004A9,000011,0000_02_00000002AA,7543657472,1451568105,L3,0,0
0000_01_00000004AA,000012,0000_02_00000002AA,7654181888,1451494089,L3,0,0
0000_01_00000004AB,000013,0000_02_00000002AA,7822871552,1451590252,L3,0,0
0000_01_00000004AC,000014,0000_02_00000002AA,5295639552,1450925203,L3,0,0
0000_01_00000004AD,000015,0000_02_00000002AA,7793807360,1451470796,L3,0,0
0000_01_00000004AE,000016,0000_02_00000002AA,8330842112,1451591997,L3,0,0
0000_01_00000004AF,000017,0000_02_00000002AA,29039368192,1452093213,L3,0,0

我想返回文件“b.txt”中第二列的值,这些值与文件“a.txt”和“b.txt”中第一列的值匹配(类似于内连接)。因此,如果文件在输出文件“c.txt”中,则我希望输出如下内容:
c.txt:
000000
000001
000002
000003
000004
000005
000007
000008
000009
000011
000012
000013
000016
000017

请注意,文件“b.txt”的第二列中不存在这些值:
000006
000010
000014
000015

我已经尝试了所有可能的地方,但并没有找到任何有助于解决问题的具体信息。感谢您的帮助。
谢谢!

有多个类似的问题。你有检查过它们吗?你尝试了什么? - fedorqui
是的,我找到了类似问题的类似答案,但它们并不完全符合我的需求,我也无法修改给定的答案以适应我的解决方案。 - dabadie
3个回答

5

我建议像其他人建议的那样使用awk。然而,这个任务也可以只使用GNU coreutils来解决:

join -1 1 -2 1 <(tr ',' ' ' < b.txt | sort) <(sort a.txt) | cut -d' ' -f2

可以大大缩短为:
join -o 2.2 a.txt <(tr ',' ' ' < b.txt)

谢谢 Benjamin W.! 很不错!


2
我正要发布几乎相同的内容。这可以缩短为join -o 2.2 a.txt <(tr ',' ' ' < b.txt)(默认情况下,连接字段1,并且您可以使用-o指定输出列)。当然,如果输入文件未排序,则应保留sort - Benjamin W.

2
你可以使用 awk 命令:
awk -F '[, ]' 'FNR==NR{col1[$1]; next} $1 in col1{print $2}' a.txt b.txt
000000
000001
000003
000004
000005
000007
000008
000009
000011
000012
000013
000016
000017

2
你能解释一下这个脚本是如何工作的吗?我想用我的不同格式的文件尝试一下,但是不知道需要调整什么。谢谢。 - user5359531
实际上,这是使用awk进行标准的两个文件处理。您不清楚哪一部分? - anubhava

2
这个一行代码应该适用于你:
awk 'NR==FNR{a[$1];next}$1 in a{print $2}' a.txt FS=',' b.txt

您的两个文件使用了不同的分隔符,我们需要将 b.txt 的分隔符设置为 FS=','。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接