如何将多个tfrecords文件合并成一个文件？

Question

如何将多个tfrecords文件合并成一个文件？

9

我的问题是，如果我想为我的数据创建一个tfrecords文件，那么完成它需要大约15天的时间，其中包含500000对模板，每个模板有32帧（图像）。为了节省时间，我有3个GPU，所以我想可以在每个GPU上创建一个tfrocords文件，然后我可以在5天内完成创建tfrecords。但是我搜索了一种将这三个文件合并成一个文件的方法，但找不到适当的解决方案。

那么，有没有办法将这三个文件合并成一个文件，或者有没有办法通过从这三个tfrecords文件中提取示例批次来训练我的网络，知道我正在使用Dataset API。

- W. Sam

4个回答

10

针对任何想合并多个.tfrecord文件的人，直接回答问题标题：

最方便的方法是使用tf.Data API: （根据文档中的示例进行修改）

# Create dataset from multiple .tfrecord files
list_of_tfrecord_files = [dir1, dir2, dir3, dir4]
dataset = tf.data.TFRecordDataset(list_of_tfrecord_files)

# Save dataset to .tfrecord file
filename = 'test.tfrecord'
writer = tf.data.experimental.TFRecordWriter(filename)
writer.write(dataset)

然而，正如holmescn所指出的那样，最好将.tfrecord文件保留为单独的文件，并将它们作为一个单独的TensorFlow数据集读取。

您还可以参考Data Science Stackexchange上有关多个.tfrecord文件的更长讨论。

- evantkchong

2

MoltenMuffins的答案适用于更高版本的tensorflow。然而，如果您使用较低版本，则必须遍历三个tfrecords并将它们保存到新的记录文件中，如下所示。这适用于tf版本1.0及以上。

def comb_tfrecord(tfrecords_path, save_path, batch_size=128):
        with tf.Graph().as_default(), tf.Session() as sess:
            ds = tf.data.TFRecordDataset(tfrecords_path).batch(batch_size)
            batch = ds.make_one_shot_iterator().get_next()
            writer = tf.python_io.TFRecordWriter(save_path)
            while True:
                try:
                    records = sess.run(batch)
                    for record in records:
                        writer.write(record)
                except tf.errors.OutOfRangeError:
                    break

- Deepak Sridhar

仅提供代码的答案是不被鼓励的。请添加一些解释，说明如何解决问题，或者这与现有答案有何不同。来自审核 - Nick

1

定制上述脚本以更好地列出tfrecords。

import os
import glob
import tensorflow as tf
save_path = 'data/tf_serving_warmup_requests'
tfrecords_path = glob.glob('data/*.tfrecords')
dataset = tf.data.TFRecordDataset(tfrecords_path)
writer = tf.data.experimental.TFRecordWriter(save_path)
writer.write(dataset)

- Rub21

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Holmes Conan · Accepted Answer

由于问题是两个月前提出的，我认为你已经找到了解决方案。对于接下来的问题，答案是否定的，你不需要创建一个巨大的tfrecord文件。只需使用新的DataSet API：

dataset = tf.data.TFRecordDataset(filenames_to_read,
    compression_type=None,    # or 'GZIP', 'ZLIB' if compress you data.
    buffer_size=10240,        # any buffer size you want or 0 means no buffering
    num_parallel_reads=os.cpu_count()  # or 0 means sequentially reading
)

# Maybe you want to prefetch some data first.
dataset = dataset.prefetch(buffer_size=batch_size)

# Decode the example
dataset = dataset.map(single_example_parser, num_parallel_calls=os.cpu_count())

dataset = dataset.shuffle(buffer_size=number_larger_than_batch_size)
dataset = dataset.batch(batch_size).repeat(num_epochs)
...

有关详细信息，请查看文档。