7得票2回答
日语的换行算法

在我最近编写的一个网站应用中,我惊喜地发现我们的一位用户决定使用它来完全使用日语创建内容。然而,文本排版很奇怪,不舒服。显然,浏览器并不擅长处理日语文本的自动换行,可能是因为它包含很少的空格,每个字符都形成一个整个的单词。但是,这不是一个安全的假设,因为有些单词由几个字符构成,并且将某些字符组...

29得票4回答
有没有好用的开源或免费中文分词算法可用?

正如问题所述,我正在寻找一个免费和/或开源的用于中文文本分词的算法。我理解这是一个非常困难的任务,因为存在许多歧义性。我知道有谷歌的API,但它更像是一个黑匣子,也就是说,很少有关于它正在做什么的信息被传递出来。

13得票5回答
R中的UTF-8文件输出

我正在使用Windows 7 64位系统上的R 2.15.0。我想将Unicode(CJK)文本输出到文件。 以下代码展示了将Unicode字符发送到UTF-8文件连接中写入时不起作用的情况:rty <- file("test.txt",encoding="UTF-8") write(...

16得票3回答
如何在Java中使用中文和日文字符作为字符串?

你好我正在使用Java语言,需要在字符串中使用一些中文和日文字符,并通过System.out.println()打印出来。 我该如何做呢? 谢谢

7得票2回答
如何在Javascript中获取日语字符的长度?

我有一个使用SHIFT_JIS字符集的ASP Classic页面。在页面头部分下的meta标签如下所示: <meta http-equiv="Content-Type" content="text/html; charset=shift_jis"> 我的页面有一个文本框(tx...

11得票6回答
简体中文Unicode表格

我在哪里可以找到一个Unicode表,仅显示简体中文字符? 我已经到处搜索了,但什么都找不到。 更新 : 我发现还有另一种编码叫做GB 2312 - http://en.wikipedia.org/wiki/GB_2312 - 只包含简体字符。 我可以使用这个来得到我需要的内容吗? 我还找...

11得票3回答
如何使用Perl或其他编程语言对CJK(亚洲)字符进行排序?

如何在Perl中对中日韩(CJK)字符进行排序? 据我所知,按笔画数排序,然后按偏旁部首排序,似乎是这些语言的排序方式。还有一些按照发音排序的方法,但这种方法较不常见。 我尝试使用:perl -e 'print join(" ", sort qw(工 然 一 人 三 古 二 )), "\n...

10得票2回答
安卓应用在中国无法运行

我为台湾开发了一款具有Google地图的应用程序。现在已经发布到市场,但当中国人尝试安装它时,会出现以下错误: "The Application does not install successfully." 它在其他地方都能正常工作。客户认为这是因为简体中文的原因。有没有人遇到过...

17得票4回答
Android在发送HTTP POST/PUT请求时的默认字符集-特殊字符问题

我已经配置了apache httpClient,如下所示:HttpProtocolParams.setContentCharset(httpParameters, "UTF-8"); HttpProtocolParams.setHttpElementCharset(httpParameters...

12得票4回答
Java中无法显示UTF-8 CJK字符

我已经研究了Unicode和UTF-8编码一段时间,我想我理解了它,所以希望这不是一个愚蠢的问题: 我有一个文件,其中包含一些CJK字符,并已保存为UTF-8。我安装了各种亚洲语言包,并且其他应用程序可以正确地呈现这些字符,所以我知道那部分是有效的。 在我的Java应用程序中,我按以下方式...