如何使用QDataStream在Python中打开一个bin文件

3
我有一个bin文件,它是由某个应用程序编码而成的,我需要访问并将其转换为csv文件。我已经获得了文档,但不确定如何在Python中访问该文件的内容。
以下是关于数据集如何序列化的一些详细信息:
Datasets.bin是一个DataSet类列表,使用Qt的QDataStream序列化,版本为QDataStream :: Qt_4_7。
The format of the datasets.bin file is:

quint32 Magic Number    0x46474247
quint32 Version     1
quint32 DataSet Marker  0x44415441
qint32      # of DataSets       n
DataSet DataSet 1
DataSet DataSet 2
     .
     .
     .
     .
DataSet DataSet n


The format of each DataSet is:

quint32     Magic Number    0x53455455  
QString     Name
quint32     Flags           Bit field (Set Table)
QString     Id          [Optional]  
QColor      Color           [Optional]
qint32          Units           [Optional]
QStringList         Creator Ids     [Optional]
bool            Hidden          [Optional]
QList<double>   Thresholds      [Optional]
QString         Source          [Optional]
qint32          Role            [Optional]
QVector<QPointF>    data points

我一直在查看PyQt4数据流文档,但似乎找不到具体的示例。希望能给我指点方向,谢谢。


使用QDataStream最容易吗?例如,使用Qt Python绑定? - Kevin Krammer
如果有人想测试,这是数据集文件的链接:https://dl.dropboxusercontent.com/u/28824868/datasets.bin - Michael Bawol
@MichaelBawol。我用C++尝试读取那个文件,但在第一个“Source”条目处失败了。因此,格式可能不完整/错误,或者文件已损坏。你从哪里获取这些文件?你有一个包含已知值集的小例子吗? - ekhumoro
@MichaelBawol。我已经成功创建了一个C++工具,可以读取格式文档中包含的数据集文件。然而,它无法读取其他数据集文件,我现在确定该文件可能已损坏或以不同的格式存在。我根据所学知识更新了我的答案,但我仍然无法看到如何正确读取PyQt中的QList/QVector类型。我怀疑这可能是不可能的。然而,我答案中的当前代码至少展示了如何正确地处理格式。 - ekhumoro
@ekhumoro 谢谢您的帮助。 - Michael Bawol
显示剩余2条评论
1个回答

2

PyQt无法像C++那样读取所有数据,因为它无法处理模板类(例如QList<double>QVector<QPointF>),这需要语言特定的支持,而Python没有提供。这意味着必须使用一种解决方法。幸运的是,数据流格式非常简单,因此读取任意模板类可以简化为一个简单的算法:将长度作为uint32读取,然后迭代range并逐个将包含的元素读入list中:

points = []
length = stream.readUInt32()
for index in range(length):
    point = QPoint()
    stream >> point
    points.append(point)

以下是一个脚本,展示了如何正确地读取整个数据集格式:
from PyQt4 import QtCore, QtGui

FLAG_HASSOURCE = 0x0001
FLAG_HASROLE = 0x0002
FLAG_HASCOLOR = 0x0004
FLAG_HASID = 0x0008
FLAG_COMPRESS = 0x0010
FLAG_HASTHRESHOLDS = 0x0020
FLAG_HASUNITS = 0x0040
FLAG_HASCREATORIDS = 0x0080
FLAG_HASHIDDEN = 0x0100
FLAG_HASMETADATA = 0x0200

MAGIC_NUMBER = 0x46474247
FILE_VERSION = 1
DATASET_MARKER = 0x44415441
DATASET_MAGIC = 0x53455455

def read_data(path):
    infile = QtCore.QFile(path)
    if not infile.open(QtCore.QIODevice.ReadOnly):
        raise IOError(infile.errorString())

    stream = QtCore.QDataStream(infile)
    magic = stream.readUInt32()
    if magic != MAGIC_NUMBER:
        raise IOError('invalid magic number')
    version = stream.readUInt32()
    if version != FILE_VERSION:
        raise IOError('invalid file version')
    marker = stream.readUInt32()
    if marker != DATASET_MARKER:
        raise IOError('invalid dataset marker')
    count = stream.readInt32()
    if count < 1:
        raise IOError('invalid dataset count')

    stream.setVersion(QtCore.QDataStream.Qt_4_7)

    rows = []
    while not stream.atEnd():
        row = []

        magic = stream.readUInt32()
        if magic != DATASET_MAGIC:
            raise IOError('invalid dataset magic number')

        row.append(('Name', stream.readQString()))

        flags = stream.readUInt32()
        row.append(('Flags', flags))

        if flags & FLAG_HASID:
            row.append(('ID', stream.readQString()))
        if flags & FLAG_HASCOLOR:
            color = QtGui.QColor()
            stream >> color
            row.append(('Color', color))
        if flags & FLAG_HASUNITS:
            row.append(('Units', stream.readInt32()))
        if flags & FLAG_HASCREATORIDS:
            row.append(('Creators', stream.readQStringList()))
        if flags & FLAG_HASHIDDEN:
            row.append(('Hidden', stream.readBool()))
        if flags & FLAG_HASTHRESHOLDS:
            thresholds = []
            length = stream.readUInt32()
            for index in range(length):
                thresholds.append(stream.readDouble())
            row.append(('Thresholds', thresholds))
        if flags & FLAG_HASSOURCE:
            row.append(('Source', stream.readQString()))
        if flags & FLAG_HASROLE:
            row.append(('Role', stream.readInt32()))

        points = []
        length = stream.readUInt32()
        for index in range(length):
            point = QtCore.QPointF()
            stream >> point
            points.append(point)
        row.append(('Points', points))
        rows.append(row)

    infile.close()

    return rows

rows = read_data('datasets.bin')

for index, row in enumerate(rows):
    print('Row %s:' % index)
    for key, data in row:
        if isinstance(data, list) and len(data):
            print('  %s = [%s ... ] (%s items)' % (
                  key, repr(data[:3])[1:-1], len(data)))
        else:
            print('  %s = %s' % (key, data))

我不知道它是否能够读取QList<double>或QVector<QPointF>,因为PyQt不能直接支持C++模板类。- 我认为这本身就是一个很好的问题。 - Trilarion
这个有点起作用了。它访问了内容,并将一些信息附加到行列表中。虽然这些信息很少,但我可以看出如果没有文件本身会很困难。我已经在深入研究这段代码以更好地理解它。 - Michael Bawol

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接