29得票4回答
有没有好用的开源或免费中文分词算法可用?

正如问题所述,我正在寻找一个免费和/或开源的用于中文文本分词的算法。我理解这是一个非常困难的任务,因为存在许多歧义性。我知道有谷歌的API,但它更像是一个黑匣子,也就是说,很少有关于它正在做什么的信息被传递出来。

29得票2回答
SQL Server 数据库字段处理韩文和中文字符

在SQL Server中,是否有可能拥有一个可以存储中文、韩文和欧洲字符的字段?我的中文字符只会变成????? 数据类型也是NVARCHAR。

28得票2回答
使用Python和正则表达式查找字符串中的所有中文文本

今天我需要从一堆字符串中去掉中文,并寻找一个简单的 Python 正则表达式。有什么建议吗?

27得票3回答
安卓系统中,日文字符看起来像中文的问题

自 Android 4.2(API 17) 开始,TextView及其子类中有一个方法TextView.setTextLocale()可以解决这个问题。将日语的locale(Locale.JAPAN)分配给此方法,汉字会呈现出日文风格。 我在Android应用程序中使用WebView和T...

25得票4回答
使用虚拟信用卡凭据测试Android市场应用内购买功能

我已按照文档http://developer.android.com/guide/market/billing/index.html 配置了一个 Android 应用程序来使用应用内购买模块。当使用与真实信用卡关联的英国开发团队账户进行测试时,一切都很正常。然而,我的开发团队中有一部分是在中国...

24得票2回答
所有的汉字在UTF-8编码中是否都是3个字节长?

请问是否可以确认在UTF-8编码下,所有中文汉字都是占用3个字节呢?

22得票7回答
将带数字的拼音转换为带声调标记的拼音

是否有使用Python或BASH工具(例如awk、perl、sed)的脚本、库或程序可以正确地将数字拼音(例如dian4 nao3)转换为带声调标记的UTF-8拼音(例如diàn​ nǎo)? 我找到了以下示例,但它们需要使用PHP或C#: [PHP] 将数字拼音转换为带声调标记的拼音? [...

22得票5回答
如何在Windows系统的gVim中添加字体

我想在Gvim中添加一个UTF-8字体,但我不知道如何操作。 我尝试按照这个说明书的步骤进行,但还是没有成功。 http://www.inter-locale.com/whitepaper/learn/learn_to_type.html(页面中间的vim部分)。 请问有谁可以告诉我如何在V...

22得票9回答
如何在不使用空格作为单词分隔符的语言(如中文)上执行Python的split()函数?

我想把一个句子分成单词列表。 对于英语和欧洲语言来说,这很容易,只需要使用split()函数。>>> "This is a sentence.".split() ['This', 'is', 'a', 'sentence.'] 但我还需要处理一些语言(比如中文)中没有使用空...

21得票9回答
一个包含中文字符的文件如何确定每个字符需要使用多少字节?

我已经阅读过Joel的文章“软件开发人员绝对必须了解的有关Unicode和字符集(无任何借口!)的绝对最低限度”,但仍然不明白所有细节。一个示例将说明我的问题。请查看下面的文件: (来源:yart.com.au) 我已经在二进制编辑器中打开了该文件,以便仔细检查紧挨着第一个汉字后面的...