14得票11回答
将一个句子分割成单独的单词

我需要将一个中文句子分成单独的词。中文的问题在于没有空格。例如,句子可能如下所示:主楼怎么走(如果有空格,它应该是:主楼 怎么 走)。 目前我能想到的解决方案是:我有一个包含中文词汇的字典(存在数据库中)。脚本将会: 尝试在数据库中查找句子的前两个字符(主楼), 如果主楼实际上是一个单词...

14得票2回答
如何使Haskell或ghci能够显示中文字符并运行以中文字符命名的脚本?

我想编写一个Haskell脚本来读取我 /home 文件夹中的文件。然而,有很多文件名是用中文字符命名的,而Haskell和Ghci无法管理它。看起来Haskell和Ghci不能很好地显示UTF-8字符。 这是我遇到的问题:Prelude> "让Haskell或者Ghci能正确显示汉字...

13得票3回答
使用SAPI,是否有一种输入拼音以进行中文发音的方法?

目标是能够发音像"wo3"这样的拼音。System.Speech可以处理中文字符,但是否有一种直接输入拼音的方法?从http://msdn.microsoft.com/en-us/library/ms720566(v=vs.85).aspx看来,我应该能够这样写出拼音。 <PRON S...

13得票5回答
R中的UTF-8文件输出

我正在使用Windows 7 64位系统上的R 2.15.0。我想将Unicode(CJK)文本输出到文件。 以下代码展示了将Unicode字符发送到UTF-8文件连接中写入时不起作用的情况:rty <- file("test.txt",encoding="UTF-8") write(...

13得票3回答
检测字符是否是简体中文或繁体中文字符

我找到了这个问题,使我能够检查一个字符串是否包含中文字符。虽然我不确定Unicode范围是否正确,但它们似乎对日语和韩语返回false,对于汉语返回true。 它无法告诉字符是繁体还是简体中文。您会如何找到这一点呢? 更新 问:如何从Unicode字符的32位值中识别出中文、韩文或日文字符...

13得票1回答
支持中文字符的内置iOS字体?

iOS自带哪些具有独特繁体中文字符集的字体? 看起来iOS 5中包含的字体清单位于iosfonts.com;然而,大多数字体(例如:“GillSans-Bold”)似乎会使用一种常见的字体来呈现中文字符(尽管我不确定是哪种字体)。 到目前为止,通过试错,似乎以下字体具有独特的中文字符集: ...

12得票5回答
Python:有没有一种方法可以在多语言(例如中英混合)字符串上执行这种“混合”split()?

我有一些多语言字符串,包含使用空格作为单词分隔符的语言(英语,法语等)和不使用空格作为单词分隔符的语言(中文,日语,韩语等)。 给定这样的字符串,我想使用空格作为分隔符将英语/法语/等部分分成单词,并将中文/日语/韩语等部分分成单个字符。 我希望将所有这些分离出来的组件放到列表中。 一些...

12得票3回答
有哪些可自由使用的TTF字体可以覆盖中文、日文和韩文在Java中使用?

在一个黑盒 Linux 系统中,系统和 openjdk 都没有任何字体,这导致我的 Java 应用程序出现问题。为了解决这个问题,我从 Oracle Java 安装中复制了 Lucida 字体到 jre/lib/fonts 目录,并运行了 fc-cache -rv jre/lib/fonts ...

12得票2回答
所有的日语空白字符是什么?

我需要拆分字符串并提取由空白字符隔开的单词。源可以是英语或日语。 英语空格字符包括制表符和空格,日本文本也使用这些字符。 (如果我没记错的话,所有广泛使用的日语字符集都是US-ASCII的超集。) 因此,我需要用于拆分字符串的字符集包括常规ASCII空格和制表符。 但是,在日语中,还有另一...

12得票4回答
Java中无法显示UTF-8 CJK字符

我已经研究了Unicode和UTF-8编码一段时间,我想我理解了它,所以希望这不是一个愚蠢的问题: 我有一个文件,其中包含一些CJK字符,并已保存为UTF-8。我安装了各种亚洲语言包,并且其他应用程序可以正确地呈现这些字符,所以我知道那部分是有效的。 在我的Java应用程序中,我按以下方式...