介绍:
我收到了一份 CSV 文件,其中字段分隔符是管道字符(例如 |
)。这个文件有一个预定义的字段数量(假设为 N
)。我可以通过读取 CSV 文件的头部来发现 N
的值,我们可以假定它是正确的。
问题:
一些字段错误地包含了换行符,这使得该行看起来比需要的更短(即,它具有 M
个字段,其中 M < N
)。
我需要创建一个 sh
脚本(而不是 bash
)来修复这些行。
尝试的解决方案:
我尝试创建以下脚本来尝试修复文件:
if [ $# -ne 1 ]
then
echo "Usage: $0 <filename>"
exit
fi
# get first line
first_line=$(head -n 1 $1)
# get number of fields
num_separators=$(echo "$first_line" | tr -d -c '|' | awk '{print length}')
cat $1 | awk -v numFields=$(( num_separators + 1 )) -F '|' '
{
totRecords = NF/numFields
# loop over lines
for (record=0; record < totRecords; record++) {
output = ""
# loop over fields
for (i=0; i<numFields; i++) {
j = (numFields*record)+i+1
# replace newline with question mark
sub("\n", "?", $j)
output = output (i > 0 ? "|" : "") $j
}
print output
}
}
'
然而,换行符仍然存在。 我该如何解决这个问题?
CSV示例:
FIRST_NAME|LAST_NAME|NOTES
John|Smith|This is a field with a
newline
Foo|Bar|Baz
预期输出:
FIRST_NAME|LAST_NAME|NOTES
John|Smith|This is a field with a * newline
Foo|Bar|Baz
* I don't care about the replacement, it could be a space, a question mark, whatever except a newline or a pipe (which would create a new field)