如何批量编写TFRecords？

Question

如何批量编写TFRecords？

13

我有一个大约有四千万行的CSV文件，每一行都是一个训练实例。根据TFRecords的文档，我试图对数据进行编码并保存在TFRecord文件中。

我找到的所有示例(甚至是TensorFlow仓库中的示例)都展示了创建TFRecord的过程取决于类TFRecordWriter。该类具有一个write方法，它以序列化的字符串表示形式的数据作为输入，并将其写入磁盘。但是，这似乎是逐个训练实例完成的。

我该如何批量写入序列化数据？

假设我有一个函数：

  def write_row(sentiment, text, encoded):
    feature = {"one_hot": _float_feature(encoded),
               "label": _int64_feature([sentiment]),
               "text": _bytes_feature([text.encode()])}

    example = tf.train.Example(features=tf.train.Features(feature=feature))
    writer.write(example.SerializeToString())

将四千万次写入磁盘（每个样本一次）会非常缓慢。更有效的方法是将数据分批处理，每次写入50k或100k个样本（根据机器资源）。然而，在TFRecordWriter内部似乎没有可用的批处理方法。

大致上可以这样实现：

class MyRecordWriter:

  def __init__(self, writer):
    self.records = []
    self.counter = 0
    self.writer = writer

  def write_row_batched(self, sentiment, text, encoded):
    feature = {"one_hot": _float_feature(encoded),
               "label": _int64_feature([sentiment]),
               "text": _bytes_feature([text.encode()])}

    example = tf.train.Example(features=tf.train.Features(feature=feature))
    self.records.append(example.SerializeToString())
    self.counter += 1
    if self.counter >= 10000:
      self.writer.write(os.linesep.join(self.records))
      self.counter = 0
      self.records = []

但是当我读取使用该方法创建的文件时，我会收到以下错误：

tensorflow/core/framework/op_kernel.cc:1192] Invalid argument: Could not parse example input, value: '
��

label

��
one_hot����
��

注意：我可以更改编码过程，以便每个example proto包含数千个示例而不仅仅是一个，但是我不想在写入TFrecord文件时以这种方式预先批处理数据，因为当我想要使用该文件进行具有不同批大小的训练时，它会在我的训练流水线中引入额外的开销。

- Insectatorious

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- de1 · Accepted Answer

TFRecords是一种二进制格式。使用以下代码将其视为文本文件：self.writer.write(os.linesep.join(self.records))。这是因为您正在使用操作系统相关的linesep（即\n或\r\n）。

解决方案：只需编写记录。您要求批量编写它们。您可以使用缓冲区编写器。对于4000万行，您可能还希望考虑将数据拆分成单独的文件，以便更好地并行化。

使用TFRecordWriter时：文件已经被缓冲。

证据可以在源代码中找到：

tf_record.py调用pywrap_tensorflow.PyRecordWriter_New
PyRecordWriter调用Env::Default()->NewWritableFile
Env->NewWritableFile在匹配的FileSystem上调用NewWritableFile
例如PosixFileSystem调用fopen
fopen返回一个流，如果它不是交互式设备，则默认完全缓冲
这将取决于文件系统，但WritableFile注意到"实现必须提供缓冲区，因为调用者可能一次附加小片段到文件中。"