将韩语单词分割成单个音节 - C++/Python

Question

将韩语单词分割成单个音节 - C++/Python

3

我正在尝试将韩文字符串分割成单个音节。输入是一个字符串，例如“서울특별시”，输出应该是“서”，“울”，“특”，“별”，“시”。我已经尝试使用C++和Python来分割字符串，但结果分别是一系列？或空格（然而字符串本身可以在屏幕上正确打印）。在C++中，我首先将输入字符串初始化为string korean="서울특별시"，然后使用string::iterator遍历字符串并打印每个音节。在Python中，我只是简单地使用了一个for循环。

我想知道是否有解决这个问题的方法。谢谢。

- user1718064

3

请查看[《关于Unicode和字符集，每个软件开发人员绝对必须知道的绝对最少知识（无任何借口！）》(The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!))] (http://joelonsoftware.com/articles/unicode.html)。 - Peter Wood

你应该找到一个 Unicode 字符串... - Alex Chamberlain

1

我确定 ICU 提供此功能。（该算法在Unicode 标准附录＃29中有描述。） - R. Martinho Fernandes

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Steve Jessop · Accepted Answer

我完全不懂韩语，无法对音节划分进行评论，但在Python 2中，以下内容可以正常工作：

# -*- coding: utf-8 -*- 
print(repr(u"서울특별시"))
print(repr(u"서울특별시"[0]))

输出：

u'\uc11c\uc6b8\ud2b9\ubcc4\uc2dc'
u'\uc11c'

在Python 3中，您不需要使用u来表示Unicode字符串。

输出是字符串中字符的Unicode值，这意味着在这种情况下字符串已经被正确地分割。我使用repr打印它们的原因是我使用的终端字体无法表示它们，所以如果没有repr，我只能看到方框。但这纯粹是一个渲染问题，repr证明了数据是正确的。

因此，如果您知道如何逻辑上识别音节，则可以使用repr查看您的代码实际执行了什么操作。Unicode NFC听起来是实际识别它们的好选择（感谢R. Martinho Fernandes），而unicodedata.normalize()是获取它的方法。