请问有什么办法可以从一大堆文本文件中移除这个烦人的字符U+0092?我尝试了下面的所有方法,但都没有效果。该字符可以在字符映射表中找到,名称为U+0092+控制。
sed -i 's/\xc2\x92//' *
sed -i 's/\u0092//' *
sed -i 's///' *
啊,我找到了一种方法:
CHARS=$(python2 -c 'print u"\u0092".encode("utf8")')
sed 's/['"$CHARS"']//g'
但是有没有直接的sed方法来实现这个呢?
’
为ISO-8859-1而产生。这两种编码非常相似,但是字节范围0x80-0x9F编码的字符不同。在这种情况下,您不应该摆脱它或其他智能引号字符,而应正确地将它们读取为ISO-8859-1,或将文件从1252转换为8859-1或UTF-8。 - bobince