Python - 将Avro字节逻辑类型Decimal反序列化为Decimal

Question

Python - 将Avro字节逻辑类型Decimal反序列化为Decimal

pythonbinarydeserializationavroapache-kafka-connect

3

我正在尝试使用Python Avro库（Python 2）读取一个Avro文件。当我使用以下代码时：

import avro.schema
from avro.datafile import DataFileReader, DataFileWriter
from avro.io import DatumReader, DatumWriter, BinaryDecoder
reader = DataFileReader(open("filename.avro", "rb"), DatumReader())
schema = reader.meta

除一个列外，它正确读取了每一列，但该列仍保留为字节格式，而不是预期的十进制值。

如何将此列转换为预期的十进制值？我注意到文件的元数据将该列标识为“类型”：'bytes'，但“逻辑类型”：'decimal'

我在下面发布了此列的元数据以及字节值（预期实际值均为25,000的1,000倍以下）。该文件是使用Kafka创建的。

元数据：

 {
                            "name": "amount",
                            "type": {
                                "type": "bytes",
                                "scale": 8,
                                "precision": 20,
                                "connect.version": 1,
                                "connect.parameters": {
                                    "scale": "8",
                                    "connect.decimal.precision": "20"
                                },
                                "connect.name": "org.apache.kafka.connect.data.Decimal",
                                "logicalType": "decimal"
                            }
                        }

字节值：

'E\xd9d\xb8\x00'
'\x00\xe8\xd4\xa5\x10\x00'
'\x01\x17e\x92\xe0\x00'
'\x01\x17e\x92\xe0\x00'

期望值：

3,000.00
10,000.00
12,000.00
5,000.00

我需要在AWS上部署的Lambda函数中使用此内容，因此不能使用fast_avro或其他使用C而非纯Python的库。

请参阅以下链接： https://pypi.org/project/fastavro/ https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-python-libraries.html

- oli5679

3个回答

1

你可以使用这个来将字节字符串解码为十进制。这会将值填充到下一个最高的字节结构，以便所有可能的值都适合其中。

import struct
from decimal import Decimal

def decode_decimal(value, num_places):
    value_size = len(value)
    for fmt in ('>b', '>h', '>l', '>q'):
        fmt_size = struct.calcsize(fmt)
        if fmt_size >= value_size:
            padding = b'\x00' * (fmt_size - value_size)
            int_value = struct.unpack(fmt, padding + value)[0]
            scale = Decimal('1') / (10 ** num_places)
            return Decimal(int_value) * scale
    raise ValueError('Could not unpack value')

Ex:

>>> decode_decimal(b'\x00\xe8\xd4\xa5\x10\x00', 8)
Decimal('10000.00000000')
>>> decode_decimal(b'\x01\x17e\x92\xe0\x00', 8)
Decimal('12000.00000000')
>>> decode_decimal(b'\xb2\xb4\xe7\x84', 4)  # Negative value
Decimal('-129676.7100')

参考文献：

https://avro.apache.org/docs/1.10.2/spec.html#Decimal https://docs.python.org/3/library/struct.html#format-characters

- Ryan Anguiano

0

由于某些原因，fastavro包在同一文件上的默认工作方式。我最终使用了下面的代码。仍然不确定是否有一种方法可以直接使用avro库解决这个问题，或者反序列化上面提出的问题。

import fastavro
with open("filename.avro", 'rb') as fo: 
    for record in fastavro.reader(fo): 
        print(record)

- oli5679

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Scott · Accepted Answer

3

要做到这一点，您需要使用fastavro库。在发布本文时，avro和avro-python3库都不支持逻辑类型。

- Scott

1

我现在意识到我不能使用fastavro，因为我需要部署在AWS上，所以只能使用纯Python编写的库。 - oli5679

1

在这种情况下，我认为您目前唯一的选择可能是分叉fastavro并删除Cython部分。该库具有Python和Cython实现，因此如果您删除Cython部分，则应该剩下一个纯Python解决方案，可以正常工作。 - Scott

1

谢谢。删除 cpython 部分完美解决了问题。 - oli5679

1

@oli5679，你可以分享一下你的解决方案吗？ - Danny Varod