我正在查看适用于Python的nltk,但它将
我知道我可以构建某种正则表达式来解决这个问题,但我正在寻找一个库/工具,因为它会更加直接。例如,在基本的正则表达式中使用句号和逗号后,我意识到像'Mr.'这样的单词会破坏系统。
如果句子是“you won't?”,split()会给我["you", "won't?"]。所以有一个额外的'?'需要处理。我正在寻找一个经过验证的方法,可以避免上述提到的问题以及许多其他例外情况。当然,如果找不到任何方法,我会采用split(regex)。
won't
分割(tokenize)为['wo',"n't"]
。是否有更健壮的库可以解决这个问题?我知道我可以构建某种正则表达式来解决这个问题,但我正在寻找一个库/工具,因为它会更加直接。例如,在基本的正则表达式中使用句号和逗号后,我意识到像'Mr.'这样的单词会破坏系统。
如果句子是“you won't?”,split()会给我["you", "won't?"]。所以有一个额外的'?'需要处理。我正在寻找一个经过验证的方法,可以避免上述提到的问题以及许多其他例外情况。当然,如果找不到任何方法,我会采用split(regex)。