我需要计算UTF-8字符串中的单词数量。即我需要编写一个Python函数,该函数以"एक बार,एक कौआ, बहुत प्यासा, था"作为输入,并返回7(单词数)。
我尝试了正则表达式"\b",如下所示。但结果不一致。
我尝试了正则表达式"\b",如下所示。但结果不一致。
wordCntExp=re.compile(ur'\b',re.UNICODE);
sen='एक बार,एक कौआ, बहुत प्यासा, था';
print len(wordCntExp.findall(sen.decode('utf-8'))) >> 1;
12
欢迎提供对以上答案的任何解释或其他解决上述问题的方法。