使用HDFS的Tensorflow数据集API

Question

使用HDFS的Tensorflow数据集API

6

我们在HDFS目录中存储了一个*.tfrecord文件列表。我想使用新的Dataset API，但唯一给出的示例是使用旧的filequeue和string_input_producer (https://www.tensorflow.org/deploy/hadoop)。这些方法使得生成epochs等变得困难。

是否有办法在Dataset API中使用HDFS？

- Lukeyb

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- mrry · Accepted Answer

HDFS文件系统层可同时使用旧的基于队列的API和新的tf.data API。假设您已根据TensorFlow/Hadoop部署指南配置了您的系统，您可以使用以下代码基于HDFS中的文件创建数据集：

dataset = tf.data.TFRecordDataset(["hdfs://namenode:8020/path/to/file1.tfrecords",
                                   "hdfs://namenode:8020/path/to/file2.tfrecords"])
dataset = dataset.map(lambda record: tf.parse_single_example(record, ...)
# ...

请注意，由于HDFS是分布式文件系统，因此您可能会从输入管道性能指南中的“并行化数据提取”部分的一些建议中受益。