正如问题所述,我正在寻找一个免费和/或开源的用于中文文本分词的算法。我理解这是一个非常困难的任务,因为存在许多歧义性。我知道有谷歌的API,但它更像是一个黑匣子,也就是说,很少有关于它正在做什么的信息被传递出来。
正如问题所述,我正在寻找一个免费和/或开源的用于中文文本分词的算法。我理解这是一个非常困难的任务,因为存在许多歧义性。我知道有谷歌的API,但它更像是一个黑匣子,也就是说,很少有关于它正在做什么的信息被传递出来。
在中文中,关键字text-segmentation for Chinese
应该翻译成中文分词
。
好的且活跃的开源中文分词算法:
C#
,快照
Java
C/C++、Java 和 C#
,演示
C, PHP, PostgreSQL
ICTCLAS
,演示
Java
Java
,演示
Python, Java
,Demo
python
其他
示例
Google Chrome(Chromium):src
,cc_cedict.txt(73145个中文单词/短语)
在Google Chrome的文本框或文本区域中输入中文句子,然后按Ctrl+←或Ctrl+→
双击
中文分词指的是将一个汉字序列切分成一个一个单独的词
http://sourceforge.net/projects/ktdictseg/
这些结果提示了一些寻找开源库的替代途径: