UnicodeDecodeError: 'utf8'编解码器无法在第12个位置解码0x9a字节。

Question

UnicodeDecodeError: 'utf8'编解码器无法在第12个位置解码0x9a字节。

3

我正在使用chatterbot库开发一个聊天机器人。这个聊天机器人将使用我的母语——斯洛文尼亚语，其中包含许多奇怪的字符（例如：š，č，ž）。我在使用Python 2.7。

当我尝试训练机器人时，该库对上述字符存在困难。例如，当我运行以下代码时：

chatBot.set_trainer(ListTrainer)
chatBot.train([
            "Koliko imam še dopusta?",
            "Letos imate še 19 dni dopusta.",
        ])

它抛出以下错误：

UnicodeDecodeError: 'utf8'编解码器无法在位置12解码字节0x9a：无效的起始字节

我在文件顶部添加了# -*- coding: utf-8 -*-行，我还通过我的编辑器（Sublime text 3）将所有使用的文件编码更改为utf-8，我使用以下代码更改了系统默认编码：

import sys
reload(sys)
sys.setdefaultencoding('utf8')

字符串的类型是unicode。

当我尝试使用这些奇怪的字符获取响应时，它工作正常，没有问题。例如，在与上述训练代码相同的执行中运行以下代码（当我在训练字符串中将's'更改为'š'和'c'更改为'č'时），不会引发错误：

chatBot.set_trainer(ListTrainer)
chatBot.train([
            "Koliko imam se dopusta?",
            "Letos imate se 19 dni dopusta.",
        ])    
chatBot.get_response("Koliko imam še dopusta?")

我无法找到解决此问题的方法。有什么建议吗？非常感谢您的帮助。 :) 编辑：我使用了from __future__ import unicode_literals，使字符串成为unicode类型。我还检查了它们是否真的是unicode类型，使用了type(myString)方法。我还想粘贴这个link。编辑2：@MallikarjunaraoKosuri - s代码可以工作，但在我的情况下，我还有一个东西在聊天机器人实例初始化中，如下所示：

chatBot = ChatBot(
    'Test',
    trainer='chatterbot.trainers.ListTrainer',
    storage_adapter='chatterbot.storage.JsonFileStorageAdapter'
)

这是我的错误原因。聊天机器人创建的json存储文件是使用本地编码创建的，而不是utf-8。似乎默认的存储(.sqlite3)没有这个问题，所以现在我只会避免使用json存储。但我仍然有兴趣找到解决这个错误的方法。

- matiOS

你说字符串是unicode类型的：你是否使用了 from __future__ import unicode_literals？另外，哪一行引发了解码错误？因为如果字符串是unicode类型的，它们就不应该被解码（它们已经全部解码了），所以也不应该有任何解码错误。 - lenz

不要更改默认编码。setdefaultencoding 被禁用是有原因的（库期望默认为 ascii）。 - Mark Tolonen

1

#coding 声明了源文件的编码方式。请确保你实际上将源文件保存在声明的编码方式下。 - Mark Tolonen

@lenz 是的，我正在使用 from __future__ import unicode_literals。解码错误是在 train("Koliko imam še dopusta?", "Letos imate še 19 dni dopusta.") 方法内引发的。 - matiOS

@MarkTolonen，好的，我会从我的代码中删除它。我在其他一些stackoverflow答案中看到过类似问题的解决方法，并且在那个线程中被标记为正确的答案。我认为它保存为utf-8格式，我是用Sublime完成的，正如下面的答案所建议的那样。这就是我所说的“我还通过我的编辑器（Sublime text 3）更改了所有使用文件的编码为utf-8”。但是，我怎么知道在这样做之后，我的文件实际上是以utf-8编码的呢？当我保存时，程序底部会显示一个状态，指示文件保存的位置，然后在括号中显示utf-8。 - matiOS

“reload”技巧通常由新手推荐，并被其他新手标记为正确。但这并不意味着它是正确的。以下是一篇关于此的文章：why-sys-setdefaultencoding-will-break-code。 - Mark Tolonen

2个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- MaximTitarenko · Answer 1

你的示例中的字符串不是unicode类型。

否则，Python就不会抛出UnicodeDecodeError错误。
这种类型的错误表示，在程序执行的某个步骤中，Python尝试将字节串解码为unicode，但由于某种原因失败了。

在你的情况下，原因是：

解码配置为utf-8

你的源文件不是utf-8，几乎肯定是cp1252：

import unicodedata

b = '\x9a'

# u = b.decode('utf-8') # UnicodeDecodeError: 'utf8' codec can't decode byte 0x9a 
                        # in position 0: invalid start byte

u = b.decode('cp1252')

print unicodedata.name(u) # LATIN SMALL LETTER S WITH CARON
print u # š

所以，来自你的cp1252源的0x9a字节无法使用utf-8进行解码。

最好的解决方案是除了将您的源代码转换为utf-8之外，什么都不做。
使用Sublime Text 3，您可以轻松地执行此操作：文件 -> 使用编码重新打开 -> UTF-8。
但在转换之前不要忘记Ctrl+C您的源代码，因为在转换后，所有的š, č, ž字符都将被替换为?。

- Mallikarjunarao Kosuri · Answer 2

我们的一些朋友已经提出了一些好的部分解决方案，但我想把所有的解决方案结合起来。

作者@gunthercox建议在这里描述了一些指南http://chatterbot.readthedocs.io/en/stable/encoding.html#how-do-i-fix-python-encoding-errors

# -*- coding: utf-8 -*-
from chatterbot import ChatBot

# Create a new chat bot named Test
chatBot = ChatBot(
    'Test',
    trainer='chatterbot.trainers.ListTrainer'
)

chatBot.train([
    "Koliko imam še dopusta?",
    "Letos imate še 19 dni dopusta.",
])

Python 终端

>>> # -*- coding: utf-8 -*-
... from chatterbot import ChatBot
>>> 
>>> # Create a new chat bot named Test
... chatBot = ChatBot(
...     'Test',
...     trainer='chatterbot.trainers.ListTrainer'
... )
>>> 
>>> chatBot.train([
...     "Koliko imam še dopusta?",
...     "Letos imate še 19 dni dopusta.",
... ])
List Trainer: [####################] 100%
>>>