我已经开始学习nltk并且正在跟随这个教程:这里。首先我们使用内置的分词器,通过使用
那么这是不是意味着它比默认的更好呢?或者各种分词器之间有什么标准可以进行比较吗?
sent_tokenize
,然后我们使用PunktSentenceTokenizer
。教程提到PunktSentenceTokenizer
能够进行无监督机器学习。那么这是不是意味着它比默认的更好呢?或者各种分词器之间有什么标准可以进行比较吗?