计算印度语言(支持印地语、泰米尔语等所有印度语言)中字符的数量

5

有没有一种最佳方法来实现印地语和泰米尔语等印度语言的字符计数?例如,如果我们以英语单词“Mother”为例,它是一个6个字母的单词。但是,如果您在印地语中键入同样的单词(माता),它是一个由两个字母组成的单词(मा + ता),但字符的长度变为4。是否有一种方法来计算真实字符的数量?

माता -> actual -> 4, Expected-> 2
जगदीश  -> actual ->5 , Expected -> 4
क्रमश  -> actual -> 5, expected -> 3

任何关于这个的帮助都将不胜感激...

请参考以下链接:https://dev59.com/yGvXa4cB1Zd3GeqPOO7h - undefined
这个回答解决了你的问题吗?统计外语中出现的字符数 - undefined
1个回答

0
我知道在5年后回答对任何人都没有帮助。但可能会帮到其他一些正在寻找同样事物的人。
我也有同样的需求。根据我所搜索的,没有任何即插即用的软件包可以完成这个任务。印度语言的问题在于,"माता"这个词被认为是 "ma" + "aa" (matra) + "tha" + "aa" (matra),所以它变成了4个字符。为了避免这个问题,你需要在Unicode中硬编码字符的范围,只考虑完整的字母,并忽略其他字符。
请参考以下内容: [https://en.wikipedia.org/wiki/Devanagari_(Unicode_block)][1]
在表格中, (U+090x4 to U+093x9) + (U+095x8 to U+095xF) 将成为普通字符,其他的是matras,你应该忽略它们,所以在你使用的编程语言中,你应该使用 .filter() 或类似的操作来找到字符的数量。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接