我正在尝试从此链接中找到的.txt文件中构建语料库。我认为
但这似乎没有移除 '\xad' 的实例。有人遇到过类似的问题吗?理想情况下,我想将这些数据编码为 UTF-8,以便使用
任何帮助都将不胜感激!
额外的背景信息:这是一个娱乐项目,旨在能够根据txt文件生成故事。到目前为止,我生成的所有内容都被'\xad'所影响,这破坏了乐趣!
\xad
的实例应该是所谓的“软连字符”,但在UTF-8编码下似乎无法正确读取。我已尝试将.txt文件编码为iso8859-15
,使用以下代码:with open('Harry Potter 3 - The Prisoner Of Azkaban.txt', 'r',
encoding='iso8859-15') as myfile:
data=myfile.read().replace('\n', '')
data2 = data.split(' ')
这将返回一个“单词”数组,但是'\xad'仍然附加在data2的许多条目中。我尝试过
data_clean = data.replace('\\xad', '')
and
data_clean = data.replace('\\xad|\\xad\\xad','')
但这似乎没有移除 '\xad' 的实例。有人遇到过类似的问题吗?理想情况下,我想将这些数据编码为 UTF-8,以便使用
nltk
库,但是当我使用 UTF-8 编码读取文件时,会出现以下错误:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xad in position 471: invalid start byte
任何帮助都将不胜感激!
额外的背景信息:这是一个娱乐项目,旨在能够根据txt文件生成故事。到目前为止,我生成的所有内容都被'\xad'所影响,这破坏了乐趣!
repr
。 - user2357112