我正在尝试在一个包含两列数据的列表中查找唯一和重复的数据。我只想比较第一列中的数据。
数据可能是这样的(由制表符分隔):
我一直在尝试以下内容:
数据可能是这样的(由制表符分隔):
What are you doing? Che cosa stai facendo?
WHAT ARE YOU DOING? Che diavolo stai facendo?
what are you doing? Qual è il tuo problema amico?
我一直在尝试以下内容:
不忽略大小写排序(只使用"sort",没有-f选项)可以减少重复项
gawk '{ FS = "\t" ; print $1 }' EN-IT_Corpus.txt | sort | uniq -i -D > dupes
忽略大小写排序(使用"sort -f")会导致更多重复项
gawk '{ FS = "\t" ; print $1 }' EN-IT_Corpus.txt | sort -f | uniq -i -D > dupes
如果我想找到忽略大小写的重复项,#2是否更准确,因为它首先按照不区分大小写排序,然后根据排序后的数据查找重复项?
据我所知,我不能将sort和unique命令组合在一起,因为sort没有显示重复项的选项。
谢谢, 史蒂夫