我有一个正则表达式\p{L}\p{M}*,用于将单词分解为字符,这在印地语或泰语中尤其需要,因为字符可能包含多个“字符”,例如मछली。如果以Java的常规方式拆分,则会得到[म][छ][ल][ी]。而我想要[म][छ][ली]。
我一直在努力改进此正则表达式,以便包括空格字符,以便当我拆分फार्म पशु时,我会得到以下组[फा][र्][म][ ][प][शु]。但是我没有成功。是否有人能帮帮我?
此外,如果有人在java中有替代方法,那也可以是另一种解决方案。我的当前Java代码是:
我一直在努力改进此正则表达式,以便包括空格字符,以便当我拆分फार्म पशु时,我会得到以下组[फा][र्][म][ ][प][शु]。但是我没有成功。是否有人能帮帮我?
此外,如果有人在java中有替代方法,那也可以是另一种解决方案。我的当前Java代码是:
Pattern pat = Pattern.compile("\\p{L}\\p{M}*");
Matcher matcher = pat.matcher(word);
while (matcher.find()) {
characters.add(matcher.group());
}