在stackoverflow上有一些关于这个问题的帖子,但我没有找到一个有效的解决方案。
我从urllib read函数中收集了大量的文本数据,并将其存储在pickle文件中。
现在我想将这些数据写入文件。在写入时,我遇到了类似于以下的错误 -
'ascii' codec can't encode character u'\u2019' in position 16: ordinal not in range(128)
很多数据正在丢失。
我猜urllib读取的数据是字节数据。
我已经尝试过
1. text=text.decode('ascii','ignore')
2. s=filter(lambda x: x in string.printable, s)
3. text=u''+text
text=text.decode().encode('utf-8')
但我仍然遇到类似的错误。有人能指出一个正确的解决方案吗?此外,编解码器是否有效?如果冲突字节不以字符串形式写入文件,则对其进行损失是可以接受的。
text
中的内容吗? - Josh Lee