检测UTF-8编码的文本文件中的损坏字符

Question

检测UTF-8编码的文本文件中的损坏字符

5

我有一个文本文件，由于错误的字符编码而出现了一些乱码和损坏的字符。当我使用UTF-8打开它时，有些字符串会出现这种情况。哪种脚本语言最有效地检测这些损坏的字符？Perl不是一个选项。我基本上想找到一种使用脚本扫描文本文件并输出发现损坏字符的行号和可能的偏移量的方法。我考虑使用AWk，但我不知道在搜索损坏的字符时要使用什么正则表达式。如果能指点一下方向，那就太好了。

更全面的输入：

我希望这个脚本告诉我哪一行有损坏的字符，以上面的例子为例，是第五行。此外，文本文件中有不同的语言，包括英语、中文、法语、西班牙语、俄语、葡萄牙语、土耳其语、欧洲法语、德语、荷兰语、佛兰芒语、韩语和葡萄牙语(Moz)。我还有一些特殊字符，如#、!和***。

我使用了以下if语句来得到上面的输出：

if($1 ~ /[^\x00-\x7F]/){
print NR ":" , $0 > "output.txt";
count++;
}

- user2056389

一些 Pythonic 的想法 - josifoski

@sln 我在if语句中使用了提供的正则表达式，它打印出了文件中所有文本行。 - user2056389

您的文本中没有无效的UTF-8字符。如果您在谈论扩展ASCII范围内的匹配字符，那么应该是这个[\x{80}-\x{FF}]。 - user557597

如果你在谈论转换语言代码点，那就是另一回事了。 - user557597

你改变了脚本，导致它出错了。Awk 是一系列 <condition> { <action> } 语句。我想象不出在条件周围加上 if() 会导致什么问题 - 也许它以为你有一个名为 if 的变量或函数，并尝试用测试结果进行字符串连接或其他操作...我真的不知道。但请不要这样做 - 使用发布的脚本。此外，请发布给定输入的预期输出，我们无法测试可能的解决方案而不知道输出应该是什么。 - Ed Morton

显示剩余5条评论

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Ed Morton - SO stop bullying · Accepted Answer

这将找到所有ASCII范围之外的字符：

$ awk '/[^\x00-\x7F]/{ print NR ":", $0 }' file
1: Interruptor EC nÃ£o estÃ¡ em DESLOCAR
4: è¾…åŠ©é©¾é©¶å®¤é—¨å…³é—
5: Porte cab. aux. fermÃ©e
7: Ð”Ð²ÐµÑ€ÑŒ Ð°Ð¿Ð¿Ð°Ñ€Ð°Ñ‚Ð½Ð¾Ð¹ ÐºÐ°Ð¼ÐµÑ€Ñ‹ Ð·Ð°ÐºÑ€Ñ‹Ñ‚Ð°
13: é«˜åŽ‹ä¿æŠ¤æ‰‹æŸ„å‘ä¸‹
14: BarriÃ¨re descendue
16: ÐžÐ³Ñ€Ð°Ð½Ð¸Ñ‡. ÐŸÐ»Ð°Ð½ÐºÐ° Ð’Ð’Ðš Ð¾Ð¿ÑƒÑ‰.
19: Barra de separaÃ§Ã£o descida
22: DPæœªå¯åŠ¨
23: Puiss. rÃ©p. non activÃ©e
25: !!! Ð’Ð½ÐµÑˆÐ½ÑÑ Ð¼Ð¾Ñ‰Ð½Ð¾ÑÑ‚ÑŒ Ð½Ðµ Ð²ÐºÐ»ÑŽÑ‡ÐµÐ½Ð°
26: PotÃªncia Dist NÃ£o Ativada
28: PotÃªncia dist nÃ£o activada
31: æœºè½¦æœªç§»åŠ¨
33: Motor no se estÃ¡ moviendo
34: Ð›Ð¾ÐºÐ¾Ð¼Ð¾Ñ‚Ð¸Ð² Ð½ÐµÐ¿Ð¾Ð´Ð²Ð¸Ð¶ÐµÐ½
35: Auto NÃ£o se Movendo
37: A nÃ£o se move
40: æœºè½¦çŠ¶å†µå…è®¸è‡ªåŠ¨åœæœº
41: Conditions auto\npermettent arrÃªt auto
43: Ð£ÑÑ‚Ð°Ð½Ð¾Ð²ÐºÐ¸ Ð»Ð¾ÐºÐ¾Ð¼Ð¾Ñ‚Ð¸Ð²Ð°\nÐŸÑ€ÐµÐ´ÑƒÑÐ¼Ð°Ñ‚Ñ€Ð¸Ð²Ð°ÑŽÑ‚ Ð     °Ð²Ñ‚Ð¾Ð¼Ð°Ñ‚Ð¸Ñ‡ÐµÑÐºÑƒÑŽ Ð¾ÑÑ‚Ð°Ð½Ð¾Ð²ÐºÑƒ
44: CondiÃ§Ãµes da moto\nPermitem Auto Parada

这样足够好吗？如果不行，请修改您的问题，展示更全面的样例输入，包括上述方法无法处理的情况。