使用TensorFlow数据集API进行数据增强的正确方式是什么？

Question

使用TensorFlow数据集API进行数据增强的正确方式是什么？

14

所以，我一直在尝试使用TensorFlow数据集API加载图像和分割掩模（用于语义分割项目），我希望能够生成批次的图像和掩模，每个图像都经过任何预处理函数的随机组合，例如亮度变化、对比度变化、裁剪、饱和度变化等。因此，我的批次中的第一张图像可能没有预处理，第二张可能有饱和度变化，第三张可能有亮度和饱和度等。

我尝试了以下方法：

import tensorflow as tf
from tensorflow.contrib.data import Dataset, Iterator
import random


def _resize_image(image, mask):
    image = tf.image.resize_bicubic(image, [480, 640], True)
    mask = tf.image.resize_bicubic(mask, [480, 640], True)
    return image, mask

def _corrupt_contrast(image, mask):
    image = tf.image.random_contrast(image, 0, 5)
    return image, mask


def _corrupt_saturation(image, mask):
    image = tf.image.random_saturation(image, 0, 5)
    return image, mask


def _corrupt_brightness(image, mask):
    image = tf.image.random_brightness(image, 5)
    return image, mask


def _random_crop(image, mask):
    seed = random.random()
    image = tf.random_crop(image, [240, 320, 3], seed=seed)
    mask = tf.random_crop(mask, [240, 320, 1], seed=seed)
    return image, mask


def _flip_image_horizontally(image, mask):
    seed = random.random()
    image = tf.image.random_flip_left_right(image, seed=seed)
    mask = tf.image.random_flip_left_right(mask, seed=seed)

    return image, mask


def _flip_image_vertically(image, mask):
    seed = random.random()
    image = tf.image.random_flip_up_down(image, seed=seed)
    mask = tf.image.random_flip_up_down(mask, seed=seed)

    return image, mask


def _normalize_data(image, mask):
    image = tf.cast(image, tf.float32)
    image = image / 255.0

    mask = tf.cast(mask, tf.float32)
    mask = mask / 255.0

    return image, mask


def _parse_data(image_paths, mask_paths):
    image_content = tf.read_file(image_paths)
    mask_content = tf.read_file(mask_paths)

    images = tf.image.decode_png(image_content, channels=3)
    masks = tf.image.decode_png(mask_content, channels=1)

    return images, masks


def data_batch(image_paths, mask_paths, params, batch_size=4, num_threads=2):
    # Convert lists of paths to tensors for tensorflow
    images_name_tensor = tf.constant(image_paths)
    mask_name_tensor = tf.constant(mask_paths)

    # Create dataset out of the 2 files:
    data = Dataset.from_tensor_slices(
        (images_name_tensor, mask_name_tensor))

    # Parse images and labels
    data = data.map(
        _parse_data, num_threads=num_threads, output_buffer_size=6 * batch_size)

    # Normalize images and masks for vals. between 0 and 1
    data = data.map(_normalize_data, num_threads=num_threads, output_buffer_size=6 * batch_size)

    if params['crop'] and not random.randint(0, 1):
        data = data.map(_random_crop, num_threads=num_threads,
                    output_buffer_size=6 * batch_size)

    if params['brightness'] and not random.randint(0, 1):
        data = data.map(_corrupt_brightness, num_threads=num_threads,
                    output_buffer_size=6 * batch_size)

    if params['contrast'] and not random.randint(0, 1):
        data = data.map(_corrupt_contrast, num_threads=num_threads,
                    output_buffer_size=6 * batch_size)

    if params['saturation'] and not random.randint(0, 1):
        data = data.map(_corrupt_saturation, num_threads=num_threads,
                    output_buffer_size=6 * batch_size)

    if params['flip_horizontally'] and not random.randint(0, 1):
        data = data.map(_flip_image_horizontally,
                    num_threads=num_threads, output_buffer_size=6 * batch_size)

    if params['flip_vertically'] and not random.randint(0, 1):
        data = data.map(_flip_image_vertically, num_threads=num_threads,
                    output_buffer_size=6 * batch_size)

    # Shuffle the data queue
    data = data.shuffle(len(image_paths))

    # Create a batch of data
    data = data.batch(batch_size)

    data = data.map(_resize_image, num_threads=num_threads,
                    output_buffer_size=6 * batch_size)

    # Create iterator
    iterator = Iterator.from_structure(data.output_types, data.output_shapes)

    # Next element Op
    next_element = iterator.get_next()

    # Data set init. op
    init_op = iterator.make_initializer(data)

    return next_element, init_op

但是所有批次返回的结果都有相同的变换应用于它们，而不是不同的组合，我的猜测是random.randint持续存在，并且并没有针对每个批次实际运行，如果是这样，我该如何修复它以获得所需的结果？我计划如何使用它的示例（我觉得这与问题无关，但人们可能仍然想知道）可以在这里找到

- Hasnain Raza

1

设置 random_crop 的 seed 参数是否保证以相同（一致）的方式裁剪 image 和 mask？ - Rohan Saxena

@RohanSaxena 理论上来说应该可以，但我注意到在GPU上运行此代码时，有时它们的裁剪方式不同，可能是由于某些多线程问题，我现在更喜欢先沿深度连接两个张量，然后进行裁剪，并再次沿深度解包。这样可以确保两者在相同的空间维度上被裁剪。 - Hasnain Raza

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Hasnain Raza · Accepted Answer

11

所以问题确实是if语句中的控制流程是使用Python变量，只有在创建图表时执行一次。为了做我想做的事情，我必须定义一个占位符，其中包含是否应用函数的布尔值（并在每次迭代时提供一个新的布尔张量来更改增强），并且控制流由tf.cond处理。如果任何人感兴趣，我将新代码推送到我在上面发布问题的GitHub链接。

- Hasnain Raza

你也可以在0到1之间使用tf.random_uniform，并使用阈值在图形内进行随机化。 - Daugmented

当你在 _flip_left_right 中执行 tf.image.random_flip_left_right(image, seed=self.seed) 时，你会多久更改一次种子？直到你改变种子，所有图像都会得到相同的翻转吗？ - bers

另外，使用图级种子的人可能会对 https://github.com/tensorflow/tensorflow/issues/35682 感兴趣。 - bers

补充我的第一条评论：这与我想象的完全不同。显然，tf.random.uniform((),0,1,seed=1); tf.random.uniform((),0,1,seed=1)与tf.random.set_seed(1); tf.random.uniform((),0,1); tf.random.uniform((),0,1)不同：前者返回两个不同的数字，而后者返回两个相同的数字。但如果是这样，你如何确保cond_crop_image和cond_crop_mask是相同的？对我来说，看起来图像可以被裁剪，同时可能掩码没有被裁剪。 - bers

实际上你是正确的，我遇到了由于错误裁剪而引起的问题。现在我所做的是将图像和掩膜沿深度连接起来。裁剪这个新张量，然后沿深度解包以获取图像和掩膜。这样就不需要同步性，因为只有一个裁剪命令可以同时裁剪两者。我只是没有更新我在上面链接中发布的代码。 - Hasnain Raza