我正在使用NLTK进行我的项目。然而,如果存在一个非ASCII字符的单词,比如'•',NLTK不能对其进行分词。我正在使用nltk.word_tokenize
作为分词器。我该如何从整个语料库中删除这样的单词或使分词器注意到这样的单词?
我正在使用NLTK进行我的项目。然而,如果存在一个非ASCII字符的单词,比如'•',NLTK不能对其进行分词。我正在使用nltk.word_tokenize
作为分词器。我该如何从整个语料库中删除这样的单词或使分词器注意到这样的单词?
ip=open(nonascii.txt,'r')
#Edit should be in w mode
op=open(ascii.txt,'w')
for line in ip:
line=line.strip().decode("ascii","ignore").encode("ascii")
if line=="":continue
op.write(line)
ip.close()
op.close()