我的网站支持多种印度语言,用户可以动态更改语言。当用户输入一些字符串值时,我需要将其拆分为单个字符。因此,我正在寻找一种通用的方法,适用于英语和一组选择的印度语言。我已经在各个网站上搜索过了,但似乎没有常见的处理该要求的方法。有特定于语言的实现(例如用于泰米尔语的Open-Tamil软件包实现了get_letters),但我找不到在考虑字形的情况下拆分或迭代Unicode字符串中的字符的通用方法。
我尝试的众多方法之一:
name = u'தமிழ்'
print name
for i in list(name):
print i
#expected output
தமிழ்
த
மி
ழ்
#actual output
தமிழ்
த
ம
ி
ழ
்
#Here is another an example using another Indian language
name = u'हिंदी'
print name
for i in list(name):
print i
#expected output
हिंदी
हिं
दी
#actual output
हिंदी
ह
ि
ं
द
ी
regex
的链接。 - Ignacio Vazquez-Abramsregex
模块,因为regex
不是纯Python,而是包含了c
扩展。是否有其他解决方案可以使用Python的re
模块或其他方式来实现这一点? - user1928896unicodedata.category()
来获取每个字符的类别,并相应地对它们进行分组。 - Ignacio Vazquez-Abrams\X
是提取单个字形簇的首选机制。 - tchrist