我需要将一个中文句子分成单独的词。中文的问题在于没有空格。例如,句子可能如下所示:主楼怎么走
(如果有空格,它应该是:主楼 怎么 走
)。
目前我能想到的解决方案是:我有一个包含中文词汇的字典(存在数据库中)。脚本将会:
尝试在数据库中查找句子的前两个字符(
主楼
),如果
主楼
实际上是一个单词并且在数据库中,则脚本将尝试查找前三个字符(主楼怎
)。主楼怎
不是一个词,因此它不在数据库中=> 我的应用现在知道主楼
是一个单独的词。尝试对剩余的字符进行同样的操作。
我并不太喜欢这种方法,因为即使分析一个小文本,它也会查询数据库太多次。
还有其他解决方案吗?