协议缓冲区Python - Unicode解码错误

Question

协议缓冲区Python - Unicode解码错误

6

我需要在我的Python-Tornado服务器上接收一个Protocol Buffers消息，并从二进制消息中提取内容。

postContent = self.request.body
message = prototemp.ReqMessage()
message.ParseFromString(postContent)

使用测试工具时它能完美运行。但当我在沙盒环境下模拟1000个客户端请求时，它在某些情况下可以正常工作，但在大多数请求中会抛出异常 -

  File "server1.py", line 21, in post
    message.ParseFromString(postContent)
  File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/message.py", line 179, in ParseFromString
    self.MergeFromString(serialized)
  File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/internal/python_message.py", line 755, in MergeFromString
    if self._InternalParse(serialized, 0, length) != length:
  File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/internal/python_message.py", line 782, in InternalParse
    pos = field_decoder(buffer, new_pos, end, self, field_dict)
  File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/internal/decoder.py", line 544, in DecodeField
    if value._InternalParse(buffer, pos, new_pos) != new_pos:
  File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/internal/python_message.py", line 782, in InternalParse
    pos = field_decoder(buffer, new_pos, end, self, field_dict)
  File "/usr/lib/python2.6/site-packages/protobuf-2.4.1-py2.6.egg/google/protobuf/internal/decoder.py", line 410, in DecodeField
    field_dict[key] = local_unicode(buffer[pos:new_pos], 'utf-8')
UnicodeDecodeError: 'utf8' codec can't decode byte 0xce in position 1: invalid continuation byte

在某些情况下，它会出现以下错误 -

UnicodeDecodeError: 'utf8' codec can't decode byte 0xbf in position 3: invalid start byte

UnicodeDecodeError: 'utf8' codec can't decode byte 0xe7 in position 3: unexpected end of data

可能的原因是什么？

- Aditya Singh

你尝试过使用try/except语句来打印生成异常的字符串吗？或者使用pdb查看那个点上的变量是什么？因为它告诉你问题所在：在字符串中指定位置有一些字符无法用utf-8编码。所以你需要处理这个字符。（如果你能找出它是什么，并确定是否需要通常处理它，你就能处理它了） - Jeff Tratner

我的第一个猜测是测试客户端使用的是UTF-16，因为这些字节似乎不匹配UTF-8或任何有意义的西方字符集。 - Alastair McCormack

听起来像是收到了一个缺少协议定义的消息。是一个或多个发射器使用了不同的规范吗？ - MarkHu

你正在使用Python 2.6，考虑升级到Python 3；因为字符串处理方式会让你的生活变得更加简单。 - Burhan Khalid

2个回答

1

我遇到了相同的问题。

这里有一个参考资料[1]。

在这种情况下，我们应该使用字节。

谢谢。

[1] https://developers.google.com/protocol-buffers/docs/proto#scalar

- shuxiong

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- user2472341 · Accepted Answer

我曾经遇到与RabbitMQ和Protocol Buffers相同的问题。问题在于协议缓冲区假定输入为str类型，而如果字节数组包含大于127的字节，则RabbitMQ似乎会在某些情况下解码消息为unicode。Tornado也可能会发生相同的情况。目前看来，可以通过以下代码解决该问题：

body = self.request.body
if type(body) == unicode:
    data = bytearray(body, "utf-8")
    body = bytes(data)
message = whatever.FromString(body)

这段代码将Unicode字符串转换为Python字节对象，可以被协议缓冲区消息解析。不知道是否有更好的方法来实现这一点，但至少这似乎是有效的。