从语料库中删除非ASCII字符

Question

从语料库中删除非ASCII字符

pythonunicodeasciinltkinformation-retrieval

3

我正在使用NLTK进行我的项目。然而，如果存在一个非ASCII字符的单词，比如'•'，NLTK不能对其进行分词。我正在使用nltk.word_tokenize作为分词器。我该如何从整个语料库中删除这样的单词或使分词器注意到这样的单词?

- IllSc

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Irshad Bhat · Accepted Answer

请使用以下代码从您的语料库中删除非ASCII字符：

ip=open(nonascii.txt,'r')
#Edit should be in w mode
op=open(ascii.txt,'w')
for line in ip:
        line=line.strip().decode("ascii","ignore").encode("ascii")
        if line=="":continue
        op.write(line)
ip.close()
op.close()