假设我有以下代码:
String description = "★★★★★ ♫ ♬ This description ✔✔ ▬ █ ✖ is a mess. ♫ ♬ ★★★★★";
我想移除非拉丁字符:✔
、▬
、█
、✖
、♫
、♬
和★
。
使其变为:这个描述很乱。
我知道可能有很多类似 Wingdings 的字符,所以我认为更好的做法是列出我想要保留的内容:基本拉丁字符和拉丁-1 补充字符。
我发现可以使用以下代码来移除除基本拉丁字符外的所有字符:
String clean_description = description.replaceAll("[^\\x00-\\x7F]", "").trim();
但是否有一种方法也可以保留拉丁-1补充字符呢?
"[^\\x00-\\xFF]"
? - resueman\p{S}
正则表达式,参见我下面的帖子。 - Saleem