我正在从事一个小型的 Python 业余项目,该项目涉及使用特定语言的大量文本创建词典。对于大多数语言,这相对简单,因为我可以使用单词之间的空格分隔符将段落标记化为词以创建词典,但例如中文在词之间不使用空格字符。我如何将一段中文文本标记化为词?
我的搜索发现这是一个比较复杂的问题,因此我想知道是否有现成的解决方案,可通过 Python 或其他任何语言的 API 解决此问题。这一定是一个普遍存在的问题,因为任何面向亚洲语言的搜索引擎都需要克服这个问题才能提供相关结果。
我尝试使用谷歌进行搜索,但我甚至不确定这种标记化称为什么,所以我的搜索结果没有找到任何东西。也许只需指点一下方向就可以帮助我。
我的搜索发现这是一个比较复杂的问题,因此我想知道是否有现成的解决方案,可通过 Python 或其他任何语言的 API 解决此问题。这一定是一个普遍存在的问题,因为任何面向亚洲语言的搜索引擎都需要克服这个问题才能提供相关结果。
我尝试使用谷歌进行搜索,但我甚至不确定这种标记化称为什么,所以我的搜索结果没有找到任何东西。也许只需指点一下方向就可以帮助我。
list
即可。 - Niklas B.