日语的 Unicode 范围是什么?

44

我想分离英文和日文字符。我需要找到所有日文字符的Unicode范围。所有日文字符的Unicode范围是什么?


3
为什么不在官方Unicode网站上查找?那将是您最好的参考资料。 - marc_s
3
日语似乎有多种文字,我不确定日本所有的文字都是什么。你能告诉我一些相关信息吗? - Neeraj Kumar
你打算如何处理全角字母?它们既是英文又是日文。 - Raymond Chen
1
作为一个入门者,定义“英文字母”和“日文字母”。 “1”是英文、日文、两者都是还是都不是? 那么“é”呢? 您应该决定您真正想做什么,这需要了解您的目标、应用场景等——这些超出了SO的范围。 - Jukka K. Korpela
5个回答

58

正如zawhtut所提到的,这个页面提供了几个Unicode字符范围的参考。为了总结这些范围:

  • 日式标点符号(3000-303f)
  • 平假名(3040-309f)
  • 片假名(30a0-30ff)
  • 全角罗马字符和半角片假名(ff00-ffef)
  • CJK统一汉字-常用和不常用汉字(4e00-9faf)

3
这是一个很好的概述,但在处理平假名范围时需要小心。U+3040、U+3097和U+3098实际上并不是平假名字符。 - nhkode

42

虽然这个问题已经有了答案,但是这篇博客文章可能更加完整。

请访问该网站并提高他们的指标,但为了纪念,这里是一份复制粘贴。

平假名

Unicode代码点正则表达式:[\x3041-\x3096]

Unicode块属性正则表达式:\p{Hiragana}

ぁ あ ぃ い ぅ う ぇ え ぉ お か が き ぎ く ぐ け げ こ ご さ ざ し じ す ず せ ぜ そ ぞ た だ ち ぢ っ つ づ て で と ど な に ぬ ね の は ば ぱ ひ び ぴ ふ ぶ ぷ へ べ ぺ ほ ぼ ぽ ま み む め も ゃ や ゅ ゆ ょ よ ら り る れ ろ ゎ わ ゐ ゑ を ん ゔ ゕ ゖ ゙ ゚ ゛ ゜ ゝ ゞ ゟ

片假名(全角)

Unicode代码点正则表达式:[\x30A0-\x30FF]

Unicode块属性正则表达式:\p{Katakana}

゠ ァ ア ィ イ ゥ ウ ェ エ ォ オ カ ガ キ ギ ク グ ケ ゲ コ ゴ サ ザ シ ジ ス ズ セ ゼ ソ ゾ タ ダ チ ヂ ッ ツ ヅ テ デ ト ド ナ ニ ヌ ネ ノ ハ バ パ ヒ ビ ピ フ ブ プ ヘ ベ ペ ホ ボ ポ マ ミ ム メ モ ャ ヤ ュ ユ ョ ヨ ラ リ ル レ ロ ヮ ワ ヰ ヱ ヲ ン ヴ ヵ ヶ ヷ ヸ ヹ ヺ ・ ー ヽ ヾ ヿ

汉字

Unicode代码点正则表达式:[\x3400-\x4DB5\x4E00-\x9FCB\xF900-\xFA6A]

Unicode块属性正则表达式:\p{Han}

汉字 日语 字语 言葉 等等。太多字符无法列举。

这个正则表达式将匹配所有汉字,包括在中文中使用的汉字。

汉字部首

Unicode代码点正则表达式:[\x2E80-\x2FD5]

⺀ ⺁ ⺂ ⺃ ⺄ ⺅ ⺆ ⺇ ⺈ ⺉ ⺊ ⺋ ⺌ ⺍ ⺎ ⺏ ⺐ ⺑ ⺒ ⺓ ⺔ ⺕ ⺖ ⺗ ⺘ ⺙ ⺚ ⺛ ⺜ ⺝ ⺞ ⺟ ⺠ ⺡ ⺢ ⺣ ⺤ ⺥ ⺦ ⺧ ⺨ ⺩ ⺪ ⺫ ⺬ ⺭ ⺮ ⺯ ⺰ ⺱ ⺲ ⺳ ⺴ ⺵ ⺶ ⺷ ⺸ ⺹ ⺺ ⺻ ⺼ ⺽ ⺾ ⺿ ⻀ ⻁ ⻂ ⻃ ⻄ ⻅ ⻆ ⻇ ⻈ ⻉ ⻊ ⻋ ⻌ ⻍ ⻎ ⻏ ⻐ ⻑ ⻒ ⻓ ⻔ ⻕ ⻖ ⻗ ⻘ ⻙ ⻚ ⻛ ⻜ ⻝ ⻞ ⻟ ⻠ ⻡ ⻢ ⻣ ⻤ ⻥ ⻦ ⻧ ⻨ ⻩ ⻪ ⻫ ⻬ ⻭ ⻮ ⻯ ⻰ ⻱ ⻲ ⻳ ⼀ ⼁ ⼂ ⼃ ⼄ ⼅ ⼆ ⼇ ⼈ ⼉ ⼊ ⼋ ⼌ ⼍ ⼎ ⼏ ⼐ ⼑ ⼒ ⼓ ⼔ ⼕ ⼖ ⼗ ⼘ ⼙ ⼚ ⼛ ⼜ ⼝ ⼞ ⼟ ⼠ ⼡ ⼢ ⼣ ⼤ ⼥ ⼦ ⼧ ⼨ ⼩ ⼪ ⼫ ⼬ ⼭ ⼮ ⼯ ⼰ ⼱ ⼲ ⼳ ⼴ ⼵ ⼶ ⼷ ⼸ ⼹ ⼺ ⼻ ⼼ ⼽ ⼾ ⼿ ⽀ ⽁ ⽂ ⽃ ⽄ ⽅ ⽆ ⽇ ⽈ ⽉ ⽊ ⽋ ⽌ ⽍ ⽎ ⽏ ⽐ ⽑ ⽒ ⽓ ⽔ ⽕ ⽖ ⽗ ⽘ ⽙ ⽚ ⽛ ⽜ ⽝ ⽞ ⽟ ⽠ ⽡ ⽢ ⽣ ⽤ ⽥ ⽦ ⽧ ⽨ ⽩ ⽪ ⽫ ⽬ ⽭ ⽮ ⽯ ⽰ ⽱ ⽲ ⽳ ⽴ ⽵ ⽶ ⽷ ⽸ ⽹ ⽺ ⽻ ⽼ ⽽ ⽾ ⽿ ⾀ ⾁ ⾂ ⾃ ⾄ ⾅ ⾆ ⾇ ⾈ ⾉ ⾊ ⾋ ⾌ ⾍ ⾎ ⾏ ⾐ ⾑ ⾒ ⾓ ⾔ ⾕ ⾖ ⾗ ⾘ ⾙ ⾚ ⾛ ⾜ ⾝ ⾞ ⾟ ⾠ ⾡ ⾢ ⾣ ⾤ ⾥ ⾦ ⾧ ⾨ ⾩ ⾪ ⾫ ⾬ ⾭ ⾮ ⾯ ⾰ ⾱ ⾲ ⾳ ⾴ ⾵ ⾶ ⾷ ⾸ ⾹ ⾺ ⾻ ⾼ ⾽ ⾾ ⾿ ⿀ ⿁ ⿂ ⿃ ⿄ ⿅ ⿆ ⿇ ⿈ ⿉

ㇰ ㇱ ㇲ ㇳ ㇴ ㇵ ㇶ ㇷ ㇸ ㇹ ㇺ ㇻ ㇼ ㇽ ㇾ ㇿ ㈠ ㈡ ㈢ ㈣ ㈤ ㈥ ㈦ ㈧ ㈨ ㈩ ㈪ ㈫ ㈬ ㈭ ㈮ ㈯ ㈰ ㈱ ㈲ ㈳ ㈴ ㈵ ㈶ ㈷ ㈸ ㈹ ㈺ ㈻ ㈼ ㈽ ㈾ ㈿ ㉀ ㉁ ㉂ ㉃ ㊀ ㊁ ㊂ ㊃ ㊄ ㊅ ㊆ ㊇ ㊈ ㊉ ㊊ ㊋ ㊌ ㊍ ㊎ ㊏ ㊐ ㊑ ㊒ ㊓ ㊔ ㊕ ㊖ ㊗ ㊘ ㊙ ㊚ ㊛ ㊜ ㊝ ㊞ ㊟ ㊠ ㊡ ㊢ ㊣ ㊤ ㊥ ㊦ ㊧ ㊨ ㊩ ㊪ ㊫ ㊬ ㊭ ㊮ ㊯ ㊰ ㊱ ㊲ ㊳ ㊴ ㊵ ㊶ ㊷ ㊸ ㊹ ㊺ ㊻ ㊼ ㊽ ㊾ ㊿ ㋀ ㋁ ㋂ ㋃ ㋄ ㋅ ㋆ ㋇ ㋈ ㋉ ㋊ ㋋ ㋐ ㋑ ㋒ ㋓ ㋔ ㋕ ㋖ ㋗ ㋘ ㋙ ㋚ ㋛ ㋜ ㋝ ㋞ ㋟ ㋠ ㋡ ㋢ ㋣ ㋤ ㋥ ㋦ ㋧ ㋨ ㋩ ㋪ ㋫ ㋬ ㋭ ㋮ ㋯ ㋰ ㋱ ㋲ ㋳ ㋴ ㋵ ㋶ ㋷ ㋸ ㋹ ㋺ ㋻ ㋼ ㋽ ㋾ ㌀ ㌁ ㌂ ㌃ ㌄ ㌅ ㌆ ㌇ ㌈ ㌉ ㌊ ㌋ ㌌ ㌍ ㌎ ㌏ ㌐ ㌑ ㌒ ㌓ ㌔ ㌕ ㌖ ㌗ ㌘ ㌙ ㌚ ㌛ ㌜ ㌝ ㌞ ㌟ ㌠ ㌡ ㌢ ㌣ ㌤ ㌥ ㌦ ㌧ ㌨ ㌩ ㌪ ㌫ ㌬ ㌭ ㌮ ㌯ ㌰ ㌱ ㌲ ㌳ ㌴ ㌵ ㌶

字母数字和标点符号(全角)

Unicode代码点正则表达式:[\xFF01-\xFF5E]

!"#$%&'()


7
请参考此页面链接,其中包含片假名、平假名和汉字的Unicode范围。

7
好的,我会尽力进行翻译并确保内容准确无误,并在答案中包含所需的上下文、背景材料和来源链接。同时,我会遵循Stack Overflow的建议,在回答中引用最相关的部分以备目标站点无法访问或永久下线的情况。 - AnnanFay

6

11
答案应该是自包含的。链接应该是为了提供上下文、背景材料和来源。请参见这里:"始终引用重要链接的最相关部分,以防目标站点无法访问或永久离线。" - AnnanFay

1
所有日语字符的Unicode范围是什么?
请查看《The WiLI benchmark dataset for written language identification》的页面,特别是表II。括号中的数字是您使用Unicode代码范围(以十进制表示)捕获的语言部分。
- 12352-12543:日语(48.73%),英语(0.00%) - 19000-44000:日语(32.78%),英语(0.00%) - 20-128:英语(99.74%),日语(11.58%)
您可以看到20-128很好地捕捉了英语,而所有3个块对于日语都很重要,但仍然缺少很大部分。
这些数字是使用lidtkWiLI-2018创建的。

令人惊讶的是,20-128这么大。我认为其中大部分使用阿拉伯数字和标点符号。也许在强调外来词或品牌时会使用A-Za-z。 - AnnanFay
我猜大部分是空格,标点和数字。等我回家可以确认一下 :-) - Martin Thoma

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接