22得票9回答
如何在不使用空格作为单词分隔符的语言(如中文)上执行Python的split()函数?

我想把一个句子分成单词列表。 对于英语和欧洲语言来说,这很容易,只需要使用split()函数。>>> "This is a sentence.".split() ['This', 'is', 'a', 'sentence.'] 但我还需要处理一些语言(比如中文)中没有使用空...

7得票3回答
非英语语言(CJK等)中的n-gram名称分析

我正在进行人员数据库去重工作。首先,我正在遵循基本的两步过程,以避免在整个数据库上进行O(n^2)操作,如文献所述。首先,“块”-迭代整个数据集,并根据名称中存在的n-grams和缩写将每个记录分到相应的箱子中。 其次,对于每个箱子中的所有记录,使用Jaro-Winkler进行比较,以获得它们...

56得票6回答
将TTC字体转换或提取为TTF字体 - 如何操作?

我已经花了8个多小时尝试在Windows上使用 STHeiti Medium.ttc.zip 字体。 但是我无法让它正常工作。是否有人能在Windows上成功使用该字体? 如果可以的话,请分享如何操作的步骤。

9得票1回答
在Android中区分CJK语言(中文、日语、韩语)

我希望能够识别中文、日文和韩文的书写字符,既作为一个整体组,又作为细分语言。以下是原因: 将CJK视为整体组:我正在制作一个垂直蒙古文TextView。为此,我需要将文本行旋转90度,因为字形在字体中是水平存储的。然而,对于CJK语言,我需要将它们旋转回来,以便它们以正确的方向书写,但仍然...

9得票1回答
为什么我的QML中的CJK文本呈现为损坏的字形?

我的应用程序允许用户随时切换语言。我发现大约有10%的用户切换到中文或日文时,UI文本的字形呈现不正确。 该应用程序在iMX6平台上的Linux系统下运行。使用Qt 5.5.0。使用QML渲染UI。使用QML Text控件呈现损坏的文本。 损坏字体呈现示例 所使用的字体是Source ...

9得票2回答
使用Ruby将Unicode转换为字符

我发现了一个Unicode汉字词典。我想要利用这个词典构建一个汉字数据库,但是我不知道如何将Unicode转换为汉字字符。 p "国".unpack("U*").first #this gives the unicode 22269 如何将22269转换回与上一行相反的字符值。

12得票4回答
Java中无法显示UTF-8 CJK字符

我已经研究了Unicode和UTF-8编码一段时间,我想我理解了它,所以希望这不是一个愚蠢的问题: 我有一个文件,其中包含一些CJK字符,并已保存为UTF-8。我安装了各种亚洲语言包,并且其他应用程序可以正确地呈现这些字符,所以我知道那部分是有效的。 在我的Java应用程序中,我按以下方式...

9得票1回答
AS3 Flash - 通过ExternalInterface渲染HTML

这是我在Stack Overflow上的第一个问题。虽然我以前也想过写一个问题,但通常我会使用搜索栏找到解决方案,这次我没有找到。我要解决的问题有点复杂,所以我会尽可能详细地说明。 基本上,我们正在将中国支付方式添加到现有的Flash电子商务中。整个网站都是AS3编写的,使用SWFObjec...

29得票2回答
SQL Server 数据库字段处理韩文和中文字符

在SQL Server中,是否有可能拥有一个可以存储中文、韩文和欧洲字符的字段?我的中文字符只会变成????? 数据类型也是NVARCHAR。

16得票3回答
如何在Java中使用中文和日文字符作为字符串?

你好我正在使用Java语言,需要在字符串中使用一些中文和日文字符,并通过System.out.println()打印出来。 我该如何做呢? 谢谢