有没有好用的开源或免费中文分词算法可用?

29

正如问题所述,我正在寻找一个免费和/或开源的用于中文文本分词的算法。我理解这是一个非常困难的任务,因为存在许多歧义性。我知道有谷歌的API,但它更像是一个黑匣子,也就是说,很少有关于它正在做什么的信息被传递出来。

4个回答

30

在中文中,关键字text-segmentation for Chinese应该翻译成中文分词

好的且活跃的开源中文分词算法:

  1. 盘古分词(Pan Gu Segment)C#快照
  2. ik-analyzerJava
  3. ICTCLASC/C++、Java 和 C#演示
  4. NlpBambooC, PHP, PostgreSQL
  5. HTTPCWS:基于ICTCLAS演示
  6. mmseg4jJava
  7. fudannlpJava演示
  • smallsegPython, JavaDemo
  • nseg:NodeJS
  • mini-segmenterpython
  • 其他

    1. Google Codehttp://code.google.com/query/#q=中文分词
    2. OSChina(Open Source China)

    示例

    1. Google Chrome(Chromium)srccc_cedict.txt(73145个中文单词/短语)

      • Google Chrome的文本框或文本区域中输入中文句子,然后按Ctrl+Ctrl+

      • 双击 中文分词指的是将一个汉字序列切分成一个一个单独的词


    3
    好的清单。小切分(smallseg)怎么样,它是否符合好且活跃的要求? - Wang Dingwei
    1
    Python的最佳“中文分词”库是哪个? - lschin
    http://ictclas.org/index.html 看起来非常棒,甚至包括词性。 - Sebastian
    Chrome使用什么来分段文本? - tofutim

    8

    1

    0
    简单的谷歌搜索“中文分词开源”会显示出这个库,也许它是你正在寻找的...:

    http://sourceforge.net/projects/ktdictseg/

    这些结果提示了一些寻找开源库的替代途径:

    • 搜索可能与中文一起使用的开源搜索实现。
    • 搜索可能与中文一起使用的开源抄袭检测实现。

    网页内容由stack overflow 提供, 点击上面的
    可以查看英文原文,
    原文链接