我正在尝试通过TensorFlow对象检测API训练自定义数据集。数据集包含40,000个训练图像和标签,它们以numpy ndarray格式 (uint8
) 存储。训练数据集形状为2 ([40000,23456]),标签形状为1 ([0..., 3])。我想为这个数据集生成tfrecord文件。我该如何做呢?
我正在尝试通过TensorFlow对象检测API训练自定义数据集。数据集包含40,000个训练图像和标签,它们以numpy ndarray格式 (uint8
) 存储。训练数据集形状为2 ([40000,23456]),标签形状为1 ([0..., 3])。我想为这个数据集生成tfrecord文件。我该如何做呢?
https://medium.com/mostly-ai/tensorflow-records-what-they-are-and-how-to-use-them-c46bc4bbb564
然而,现在使用数据集输入管道处理预处理的方法更加简单。我更喜欢保持我的数据以其最原始的格式,并构建一个预处理管道来处理它。这是您想要阅读的主要指南,以了解有关数据集预处理管道的信息:batched_dataset = dataset.batch(4)
之类的命令控制,请参阅有关简单批处理的部分。如果您提供了一个加载器函数,那么您将从一组ID开始(也许加载所有ID),并使用Dataset.map
来获取ID并返回它所引用的实际数据样本。如果您的数据已经以TF记录格式存在,则TF将为您提供读取器,按需加载数据。 - David Parks