协议缓冲区Python - Unicode解码错误

6
我需要在我的Python-Tornado服务器上接收一个Protocol Buffers消息,并从二进制消息中提取内容。
postContent = self.request.body
message = prototemp.ReqMessage()
message.ParseFromString(postContent)

使用测试工具时它能完美运行。但当我在沙盒环境下模拟1000个客户端请求时,它在某些情况下可以正常工作,但在大多数请求中会抛出异常 -

  File "server1.py", line 21, in post
    message.ParseFromString(postContent)
  File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/message.py", line 179, in ParseFromString
    self.MergeFromString(serialized)
  File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/internal/python_message.py", line 755, in MergeFromString
    if self._InternalParse(serialized, 0, length) != length:
  File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/internal/python_message.py", line 782, in InternalParse
    pos = field_decoder(buffer, new_pos, end, self, field_dict)
  File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/internal/decoder.py", line 544, in DecodeField
    if value._InternalParse(buffer, pos, new_pos) != new_pos:
  File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/internal/python_message.py", line 782, in InternalParse
    pos = field_decoder(buffer, new_pos, end, self, field_dict)
  File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/internal/decoder.py", line 410, in DecodeField
    field_dict[key] = local_unicode(buffer[pos:new_pos], 'utf-8')
UnicodeDecodeError: 'utf8' codec can't decode byte 0xce in position 1: invalid continuation byte

在某些情况下,它会出现以下错误 -
UnicodeDecodeError: 'utf8' codec can't decode byte 0xbf in position 3: invalid start byte

UnicodeDecodeError: 'utf8' codec can't decode byte 0xe7 in position 3: unexpected end of data

可能的原因是什么?

你尝试过使用try/except语句来打印生成异常的字符串吗?或者使用pdb查看那个点上的变量是什么?因为它告诉你问题所在:在字符串中指定位置有一些字符无法用utf-8编码。所以你需要处理这个字符。(如果你能找出它是什么,并确定是否需要通常处理它,你就能处理它了) - Jeff Tratner
我的第一个猜测是测试客户端使用的是UTF-16,因为这些字节似乎不匹配UTF-8或任何有意义的西方字符集。 - Alastair McCormack
听起来像是收到了一个缺少协议定义的消息。是一个或多个发射器使用了不同的规范吗? - MarkHu
你正在使用Python 2.6,考虑升级到Python 3;因为字符串处理方式会让你的生活变得更加简单。 - Burhan Khalid
2个回答

6

我曾经遇到与RabbitMQ和Protocol Buffers相同的问题。问题在于协议缓冲区假定输入为str类型,而如果字节数组包含大于127的字节,则RabbitMQ似乎会在某些情况下解码消息为unicode。Tornado也可能会发生相同的情况。目前看来,可以通过以下代码解决该问题:

body = self.request.body
if type(body) == unicode:
    data = bytearray(body, "utf-8")
    body = bytes(data)
message = whatever.FromString(body)

这段代码将Unicode字符串转换为Python字节对象,可以被协议缓冲区消息解析。不知道是否有更好的方法来实现这一点,但至少这似乎是有效的。


谢谢!你帮我省去了很多麻烦。你能告诉我 bytes(data) 是什么意思吗?当我在交互式 Python 中输入 help(bytes) 时,我没有看到任何关于这个函数的信息。谢谢! - Bitdiot
这不是一个函数,而是Python的一种类型。 - the_drow
1
如果你转向Python3,你就不会遇到这些问题。只是说一下。 - Burhan Khalid

1

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接