选择Tensorflow模型的损失函数和指标。

Question

选择Tensorflow模型的损失函数和指标。

tensorflowmachine-learningkerasdeep-learningtensorflow2.0

7

我将尝试进行迁移学习，使用一个预训练的Xception模型，并加入一个新的分类器。

这是模型：

base_model = keras.applications.Xception(
    weights="imagenet",
    input_shape=(224,224,3),
    include_top=False
)

我使用的数据集是从tensorflow数据集中直接获取的oxford_flowers102。这里是数据集页面。

我在选择某些参数时遇到了问题 - 要么训练精度显示异常低，要么就会出现错误。

我需要在这个（oxford_flowers102）数据集上指定以下参数：

分类器的新添加的密集层。我尝试过：outputs = keras.layers.Dense(102, activation='softmax')(x)，但我不确定是否应该在此处选择激活函数。
模型的损失函数。
评估指标。

我已经尝试过：

model.compile(
    optimizer=keras.optimizers.Adam(),
    loss=keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    metrics=[keras.metrics.Accuracy()],
)

我不确定应该选择SparseCategoricalCrossentropy还是CategoricalCrossentropy，那么from_logits参数怎么办？

我也不确定在度量方面应该选择keras.metrics.Accuracy()还是keras.metrics.CategoricalAccuracy()

我肯定缺少一些理论知识，但现在我只需要这个工作。期待您的答案！

- Nickname11

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Innat · Accepted Answer

关于数据集：牛津花卉102

该数据集分为训练集、验证集和测试集。训练集和验证集每个类别都包含10张图片（每个集合共计1020张图片）。测试集包含其余的6149张图片（每个类别至少20张）。

'test'        6,149
'train'       1,020
'validation'  1,020

如果我们检查，我们会看到

import tensorflow_datasets as tfds
tfds.disable_progress_bar()

data, ds_info = tfds.load('oxford_flowers102', 
                          with_info=True, as_supervised=True)
train_ds, valid_ds, test_ds = data['train'], data['validation'], data['test']

for i, data in enumerate(train_ds.take(3)):
  print(i+1, data[0].shape, data[1])
1 (500, 667, 3) tf.Tensor(72, shape=(), dtype=int64)
2 (500, 666, 3) tf.Tensor(84, shape=(), dtype=int64)
3 (670, 500, 3) tf.Tensor(70, shape=(), dtype=int64)

ds_info.features["label"].num_classes
102

所以，它有102个类别或分类，目标带有一个整数和不同形状的输入。

澄清：首先，如果您保持此整数目标或标签，则应使用sparse_categorical_accuracy进行准确度评估和sparse_categorical_crossentropy作为损失函数。但是，如果您将整数标签转换为独热编码向量，则应使用categorical_accuracy进行准确度评估，并使用categorical_crossentropy作为损失函数。由于这些数据集具有整数标签，因此可以选择sparse_categorical，也可以将标签转换为独热编码以使用categorical。

其次，如果您将outputs = keras.layers.Dense(102, activation='softmax')(x)设置为最后一层，则会得到概率分数。但是，如果您将outputs = keras.layers.Dense(102)(x)设置为最后一层，则会得到对数。因此，如果您设置了activations='softmax'，则不应使用from_logit = True。例如，在您上面的代码中，您应该按照以下方式操作（这里是some theory）：

...
(a)
# Use softmax activation (no logits output)
outputs = keras.layers.Dense(102, activation='softmax')(x)
...
model.compile(
    optimizer=keras.optimizers.Adam(),
    loss=keras.losses.SparseCategoricalCrossentropy(from_logits=False),
    metrics=[keras.metrics.Accuracy()],
)

or,

(b)
# no activation, output will be logits
outputs = keras.layers.Dense(102)(x)
...
model.compile(
    optimizer=keras.optimizers.Adam(),
    loss=keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    metrics=[keras.metrics.Accuracy()],
)

第三点，keras 使用 字符串标识符 比如 metrics=['acc'] , optimizer='adam'。但在您的情况下，由于您提到了损失函数特定，因此需要更加具体。所以，您应该选择 keras.metrics.SparseCategoricalAccuracy() 如果您的目标是整数 或者 keras.metrics.CategoricalAccuracy() 如果您的目标是独热编码向量，而不是 keras.metrics.Accuracy()。

代码示例

这是一个端到端的示例。请注意，我将将整数标签转换为独热编码向量（现在，这只是我的偏好问题）。此外，我想从最后一层得到概率（而不是对数几率），这意味着from_logits = False。而且，为了实现所有这些，我需要在训练中选择以下参数：

# use softmax to get probabilities 
outputs = keras.layers.Dense(102, 
                   activation='softmax')(x)

# so no logits, set it false (FYI, by default it already false)
loss = keras.losses.CategoricalCrossentropy(from_logits=False),

# specify the metrics properly 
metrics = keras.metrics.CategoricalAccuracy(),

让我们完成整个代码。

import tensorflow_datasets as tfds
tfds.disable_progress_bar()

data, ds_info = tfds.load('oxford_flowers102', 
                         with_info=True, as_supervised=True)
train_ds, valid_ds, test_ds = data['train'], data['validation'], data['test']


NUM_CLASSES = ds_info.features["label"].num_classes
train_size =  len(data['train'])

batch_size = 64
img_size = 120

预处理和数据增强

import tensorflow as tf 

# pre-process functions 
def normalize_resize(image, label):
    image = tf.cast(image, tf.float32)
    image = tf.divide(image, 255)
    image = tf.image.resize(image, (img_size, img_size))
    label = tf.one_hot(label , depth=NUM_CLASSES) # int to one-hot
    return image, label

# augmentation 
def augment(image, label):
    image = tf.image.random_flip_left_right(image)
    return image, label 


train = train_ds.map(normalize_resize).cache().map(augment).shuffle(100).\
                          batch(batch_size).repeat()
valid = valid_ds.map(normalize_resize).cache().batch(batch_size)
test = test_ds.map(normalize_resize).cache().batch(batch_size)

模型

from tensorflow import keras 

base_model = keras.applications.Xception(
    weights='imagenet',  
    input_shape=(img_size, img_size, 3),
    include_top=False)  

base_model.trainable = False
inputs = keras.Input(shape=(img_size, img_size, 3))
x = base_model(inputs, training=False)
x = keras.layers.GlobalAveragePooling2D()(x)
outputs = keras.layers.Dense(NUM_CLASSES, activation='softmax')(x)
model = keras.Model(inputs, outputs)

另外，我想使用两个指标来计算top-1和top-3的准确性。

model.compile(optimizer=keras.optimizers.Adam(),
              loss=keras.losses.CategoricalCrossentropy(),
              metrics=[
                       keras.metrics.TopKCategoricalAccuracy(k=3, name='acc_top3'),
                       keras.metrics.TopKCategoricalAccuracy(k=1, name='acc_top1')
                    ])
model.fit(train, steps_per_epoch=train_size // batch_size,
          epochs=20, validation_data=valid, verbose=2)

...
Epoch 19/20
15/15 - 2s - loss: 0.2808 - acc_top3: 0.9979 - acc_top1: 0.9917 - 
val_loss: 1.5025 - val_acc_top3: 0.8147 - val_acc_top1: 0.6186

Epoch 20/20
15/15 - 2s - loss: 0.2743 - acc_top3: 0.9990 - acc_top1: 0.9885 - 
val_loss: 1.4948 - val_acc_top3: 0.8147 - val_acc_top1: 0.6255

评估

# evaluate on test set 
model.evaluate(test, verbose=2)
97/97 - 18s - loss: 1.6482 - acc_top3: 0.7733 - acc_top1: 0.5994
[1.648208498954773, 0.7732964754104614, 0.5994470715522766]