中文中的令牌化和模式匹配是如何工作的?

10
这个问题涉及计算机技术和中文知识。我有一些中文查询,还有一个单独的短语列表,我需要找出这些查询中是否包含任何这些短语。
在英语中,这是一个非常简单的任务。我完全不了解中文,其语义、语法规则等,如果这个论坛中也懂中文的人可以帮我理解一些基本知识以及如何对中文进行模式匹配。
我基本上认为,在中文中,一个单位(中间没有任何空格)实际上可以表示多个单词(这是正确的吗?)。那么这些单词如何组合在一起成为一个单位,是否有任何规则。这很令人困惑,因为中文写作中存在空格,但即使一个单位没有空格,其中也有多个单词。
任何关于中文从计算机角度、模式匹配等方面的链接都将非常有用。

不理解:空格只能与标点符号一起使用吗? - xyz
2
一个汉字并不等同于一个英文字,许多单词由两个字符组成,比如“国际”这个词。此外,一个汉字的含义可能会因周围的字符而有所不同(具有语境依赖性)。 - Dave Newton
我回复的评论已经不存在了。 - Dave Newton
@p2pnode,除了标点符号后面,中文文本中很少出现空格,我想这就是那条评论想要表达的意思。不幸的是它被删除了。无论如何,我可能会针对该主题进行研究论文,因为它很复杂,但是一个以中文为母语的人会有更有用的输入 :) - Dave Newton
最好的方法可能是使用字典,因为像“总统克林顿”这样的词汇在中文中是“克林顿总统”,其中“克”、“林”和“顿”是三个可以组成其他单词的字符,但在这种情况下表示“clinton”。其他任何方法都可能不如所需的准确。 - Dean Hiller
2个回答

10
我有一个基本的认识,即在中文中,一个单位(没有任何间隔)实际上可以表示多个单词(这是正确的吗?)。
在中文中,空格很少使用,例如: 递归(英语:Recursion),又譯為遞迴,在数学与计算机科学中,是指在函数的定义中使用函数自身的方法。递归一词还较常用于描述以自相似方法重复事物的过程。例如,当两面镜子相互之间近似平行时,镜中嵌套的图像是以无限递归的形式出现的。
你会注意到,看起来像空格的字符实际上只是中文标点符号,比通常的标点符号更宽。
那么,有没有规则来决定多个单词如何组合成为一个单位。这很令人困惑,因为中文写作中有空格,但即使没有空格的单位也包含多个单词。
可以这样考虑:一个中文字符非常、非常粗略地类似于一个英文单词。经常需要组合两个或更多字符来形成一个单词,并且每个单独的字符可能根据上下文完全不同。为了有意义地分词中文文本,您必须考虑到这一点。

请查看斯坦福NLP组的中文自然语言处理和语音处理


也许在你编辑前包括我的评论时,它是错误的;在编辑之前更加错误。 - Dave Newton
另外,如果你知道的话,基本语法规则是什么?主语动词宾语? - xyz
@DaveNewton 这是否意味着现在仍然是错误的?如果是,那么它有什么问题? - NullUserException
1
@p2pnode http://www.rci.rutgers.edu/~rsimmon/chingram/ 对于非编程相关的问题,最好使用网络而不是SO。 - Dave Newton
@p2pnode 如果需要更多资源,您可以在谷歌上搜索“中文自然语言处理”。 - NullUserException
显示剩余2条评论

1

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接