印地语重音字符的Unicode范围是什么?

4
我试图收集印地语字符集中所有类似于'o'的Unicode列表。实际上,任何使用单独字符表示重音的字符(任何语言)的列表都更好。
我打算在RegExp中使用这个Unicode列表。
我一直试图通过将它们输出到Input TextField来编辑一个字符范围列表,但编辑此文本会导致奇怪的问题(键盘光标未放置在正确的字符上,选择突然消失/错误扭曲...换句话说...印地语地狱!)
我也尝试过Notepad ++,但虽然它反应更快,但最终像Flash Player文本字段一样崩溃了。这似乎特别发生在删除[]块(nulls?)字符时。其中一些会触发奇怪的行为。
无论如何,我想要的只是一个重音列表。 下面的图像显示了一些示例(但我需要所有重音):
谢谢!

1
在支持适当Unicode正则表达式的语言中,这将是[\p{IsDevanagari}&&\p{M}]...不幸的是,我认为只有Java(和可能是Perl)支持这一点。 - porges
@Porges PCRE在php中使用。因此,如果Perl是正确的,那么php也是正确的。 另外:http://www.regular-expressions.info/ - kirilloid
PCRE 不支持字符类交集,也不支持 Perl 支持的所有功能。(无论如何,您可以使用前瞻来模拟交集。)但是... 这并不重要,因为他正在使用 AS。 :) - porges
这是有用的信息。在AS中使用类似的东西会很有用,只需要将这些字符收集到一个XML文件中并分发给全世界即可 :) - chamberlainpi
3个回答

6

3

这里是梵文组合标记的字符类:

[\u901\u902\u903\u93c\u93e\u93f\u940\u941\u942\u943
 \u944\u945\u946\u947\u948\u949\u94a\u94b\u94c\u94d
 \u951\u952\u953\u954\u962\u963]

这只是基本的天城体方块(不包括天城扩展)。


6
略微更加紧凑:[\u901-\u903\u93c\u93e-\u949\u94a-\u94d\u951-\u954\u962\u963] 的翻译是什么? - beerbajay

0

如果您想要完整的集合(适用于所有语言),可以通过编程方式实现。 您可以从Unicode日期文件开始,该文件位于ftp://ftp.unicode.org/Public/6.1.0/ucd/UnicodeData.txt,由TR-44(http://unicode.org/reports/tr44/#Property_Definitions)描述。

您可以使用Canonical_Combining_Class字段(请参见http://unicode.org/reports/tr44/#Canonical_Combining_Class_Values)来过滤您想要的确切字符。 无法更加精确,因为“重音”有点模糊 :-) 您甚至可能还需要查看General_Category以正确过滤(并排除某些标记、符号或标点符号)。

编写一个脚本来完成这个任务肯定比尝试使用文本编辑器更好。 组合字符的一个特点是它们可以组合 :-) 因此,您可能会得到各种令人困惑的结果(例如:http://www.siao2.com/2006/02/17/533929.aspx :-))


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接