我有一些文本块需要进行分词,但是不想使用空格和标点符号进行分词,因为像NLTK这样的工具通常采用这种方式。有特定的短语需要作为一个单独的标记进行分词,而不是常规的分词。
例如,给定句子“the West Wing is an American television serial drama created by Aaron Sorkin that was originally broadcast on NBC from September 22, 1999 to May 14, 2006”,并将短语“the west wing”添加到分词器中,则结果标记应如下所示:
- the west wing
- is
- an
- american
- ...
最佳方法是什么? 我更喜欢在NLTK等工具的范围内解决此问题。
regex_tokenize
和NLTK 书籍第七章
的链接需要登录和密码。 - Murta