尝试仅删除非ASCII字符

Question

10

我正在尝试操作一个文本文件，从中删除非ASCII字符。我不想删除行，只想删除有问题的字符。我正在尝试让以下表达式起作用：sed '/[\x80-\xFF]/d'。

- M_x_r

1

请查看这个答案。 - speakr

1

这个线程可能有你正在寻找的答案 https://dev59.com/smoy5IYBdhLWcg3wa9Qj - Ifthikhan

您的命令将删除所有包含非ASCII字符的行。如果这不是您想要的，请检查重复的问题。 - Chris Dodd

我尝试了两个命令：1）sed -E 's/[^[:print:]]//' <-- 这应该可以删除非可打印字符。然而，非可打印的东西仍然出现。当我尝试使用sed -E 's/[\d128-\d255]//'时，我会得到一个无效的排序错误。是否有其他命令可以建议只删除非ASCII字符？ - M_x_r

第一个评论链接中有一个不错的Perl示例。如果您所说的“任何其他命令”是指这个，那么就可以了。 - Josh

谢谢Josh，但我想用Sed或者TR来完成它。 - M_x_r

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- speakr · Accepted Answer

建议的解决方案可能在某些版本的sed中失败，例如GNU sed 4.2.1。

使用 tr：

tr -cd '[:print:]' < yourfile.txt

这将删除除 [\x20-\x7e] 以外的任何字符。

如果您想保留例如换行符，则只需添加 \n：

tr -cd '[:print:]\n' < yourfile.txt

如果您真的想保留所有ASCII字符（甚至是控制码）：

tr -cd '[:print:][:cntrl:]' < yourfile.txt

这将删除不在[\x00-\x7f]范围内的任何字符。