虽然我们相信 Python 3 在 Unicode 方面已经做得很好了,但在我遇到这种情况时还是感到惊讶。
>>> amma = "அம்மா"
>>> amma
'அம்மா'
>>> len(amma)
5
显然,泰米尔字符串
"அம்மா"
有3个字母,不能接受或赞赏len("அம்மா")
的返回值为5。其他德拉维达语或婆罗米文字如何解决此问题以获得正确的字符串长度呢?编辑#1:考虑到@joey的评论,可以将此问题重新表述如下。 如何在Python中计算音素长度?我们知道Swift或Perl6默认执行此操作。 2> let amma = "அம்மா".characters.count
amma: Distance = 3