印地语重音字符的Unicode范围是什么？

Question

印地语重音字符的Unicode范围是什么？

unicodeutf-8diacriticshindi

4

我试图收集印地语字符集中所有类似于'o'的Unicode列表。实际上，任何使用单独字符表示重音的字符（任何语言）的列表都更好。

我打算在RegExp中使用这个Unicode列表。

我一直试图通过将它们输出到Input TextField来编辑一个字符范围列表，但编辑此文本会导致奇怪的问题（键盘光标未放置在正确的字符上，选择突然消失/错误扭曲...换句话说...印地语地狱！）

我也尝试过Notepad ++，但虽然它反应更快，但最终像Flash Player文本字段一样崩溃了。这似乎特别发生在删除[]块（nulls？）字符时。其中一些会触发奇怪的行为。

无论如何，我想要的只是一个重音列表。下面的图像显示了一些示例（但我需要所有重音）：

谢谢！

- chamberlainpi

1

在支持适当Unicode正则表达式的语言中，这将是[\p{IsDevanagari}&&\p{M}]...不幸的是，我认为只有Java（和可能是Perl）支持这一点。 - porges

@Porges PCRE在php中使用。因此，如果Perl是正确的，那么php也是正确的。另外：http://www.regular-expressions.info/ - kirilloid

PCRE 不支持字符类交集，也不支持 Perl 支持的所有功能。（无论如何，您可以使用前瞻来模拟交集。）但是... 这并不重要，因为他正在使用 AS。 :) - porges

这是有用的信息。在AS中使用类似的东西会很有用，只需要将这些字符收集到一个XML文件中并分发给全世界即可 :) - chamberlainpi

3个回答

3

这里是梵文组合标记的字符类：

[\u901\u902\u903\u93c\u93e\u93f\u940\u941\u942\u943
 \u944\u945\u946\u947\u948\u949\u94a\u94b\u94c\u94d
 \u951\u952\u953\u954\u962\u963]

这只是基本的天城体方块（不包括天城扩展）。

- porges

6

略微更加紧凑：[\u901-\u903\u93c\u93e-\u949\u94a-\u94d\u951-\u954\u962\u963] 的翻译是什么？ - beerbajay

0

如果您想要完整的集合（适用于所有语言），可以通过编程方式实现。您可以从Unicode日期文件开始，该文件位于ftp://ftp.unicode.org/Public/6.1.0/ucd/UnicodeData.txt，由TR-44（http://unicode.org/reports/tr44/#Property_Definitions）描述。

您可以使用Canonical_Combining_Class字段（请参见http://unicode.org/reports/tr44/#Canonical_Combining_Class_Values）来过滤您想要的确切字符。无法更加精确，因为“重音”有点模糊 :-) 您甚至可能还需要查看General_Category以正确过滤（并排除某些标记、符号或标点符号）。

编写一个脚本来完成这个任务肯定比尝试使用文本编辑器更好。组合字符的一个特点是它们可以组合 :-) 因此，您可能会得到各种令人困惑的结果（例如：http://www.siao2.com/2006/02/17/533929.aspx :-)）

- Mihai Nita

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Peter Hall · Accepted Answer

您可以在此处找到按语言分组的Unicode范围列表的PDF文件：http://unicode.org/charts/

对于印地语，您可能需要使用天城体或扩展天城体。