我有一个文件格式如下:
string1,string2,string3,...
...
我需要分析第二列,计算每个字符串的出现次数,并生成以下格式的文件:
"number of occurrences of x",x
"number of occurrences of y",y
...
我已经成功编写了以下脚本,它可以正常工作:
#!/bin/bash
> output
regExp='^\s*([0-9]+) (.+)$'
while IFS= read -r line
do
if [[ "$line" =~ $regExp ]]
then
printf "${BASH_REMATCH[1]},${BASH_REMATCH[2]}\n" >> output
fi
done <<< "`gawk -F , '!/^$/ {print $2}' $1 | sort | uniq -c`"
我的问题是: 有更好、更简单的方法来完成这项工作吗?
尤其是我不知道如何解决这个问题:
gawk -F , '!/^$/ {print $2}' miocsv.csv | sort | uniq -c | gawk '{print $1","$2}'
问题在于string2可能包含空格,如果有空格,第二个gawk调用将截断字符串。我也不知道如何打印所有字段“从2到NF”,保留分隔符,分隔符可以连续出现多次。
非常感谢,再见。
编辑:
如所请求,这里有一些示例数据:
(这是一个练习,抱歉创新)
输入:
*,*,*
test, test ,test
prova, * , prova
test,test,test
prova, prova ,prova
leonardo,da vinci,leonardo
in,o u t ,pr
, spaces ,
, spaces ,
leonardo,da vinci,leonardo
leonardo,da vinci,leonardo
leonardo,da vinci,leonardo
in,o u t ,pr
test, test ,test
, tabs ,
, tabs ,
po,po,po
po,po,po
po,po,po
prova, * , prova
prova, * , prova
*,*,*
*,*,*
*,*,*
, spaces ,
, tabs ,
输出:
3, *
4,*
4,da vinci
2,o u t
3,po
1, prova
3, spaces
3, tabs
1,test
2, test