Сброс веса в слое Keras
Я хотел бы сбросить (рандомизировать) веса всех слоев в моей модели Keras (deep learning). Причина в том, что я хочу иметь возможность обучать модель несколько раз с различными разделениями данных без необходимости делать (медленную) перекомпиляцию модели каждый раз.
вдохновленный эта дискуссия, Я пробую следующий код:
# Reset weights
for layer in KModel.layers:
if hasattr(layer,'init'):
input_dim = layer.input_shape[1]
new_weights = layer.init((input_dim, layer.output_dim),name='{}_W'.format(layer.name))
layer.trainable_weights[0].set_value(new_weights.get_value())
однако он работает только частично.
частично, потому что я проверил некоторый слой.get_weights() значения, и они, кажется, меняются. Но когда я перезапускаю обучение, значения затрат намного ниже первоначальных значений затрат при первом запуске. Как будто мне удалось сбросить некоторые веса, но не все.
любые советы о том, где я ошибаюсь, будут глубоко оценены. Тнх..
6 ответов
сохраните начальные веса сразу после компиляции модели, но перед ее обучением:
model.save_weights('model.h5')
а затем после тренировки "перезагрузите" модель, перезагрузив начальные веса:
model.load_weights('model.h5')
это дает вам модель яблок для яблок для сравнения различных наборов данных и должна быть быстрее, чем перекомпиляция всей модели.
Если вы хотите действительно повторно рандомизировать веса, а не просто восстановить начальные веса:
from keras.initializers import glorot_uniform # Or your initializer of choice
initial_weights = model.get_weights()
new_weights = [glorot_uniform()(w.shape).eval() for w in initial_weights]
model.set_weights(new_weights)
попробовать set_weights.
например:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
from __future__ import print_function
import numpy as np
np.random.seed(1234)
from keras.layers import Input
from keras.layers.convolutional import Convolution2D
from keras.models import Model
print("Building Model...")
inp = Input(shape=(1,None,None))
x = Convolution2D(1, 3, 3, border_mode='same', init='normal',bias=False)(inp)
output = Convolution2D(1, 3, 3, border_mode='same', init='normal',bias=False)(x)
model_network = Model(input=inp, output=output)
w = np.asarray([
[[[
[0,0,0],
[0,2,0],
[0,0,0]
]]]
])
for layer_i in range(len(model_network.layers)):
print (model_network.layers[layer_i])
for layer_i in range(1,len(model_network.layers)):
model_network.layers[layer_i].set_weights(w)
input_mat = np.asarray([
[[
[1.,2.,3.,10.],
[4.,5.,6.,11.],
[7.,8.,9.,12.]
]]
])
print("Input:")
print(input_mat)
print("Output:")
print(model_network.predict(input_mat))
w2 = np.asarray([
[[[
[0,0,0],
[0,3,0],
[0,0,0]
]]]
])
for layer_i in range(1,len(model_network.layers)):
model_network.layers[layer_i].set_weights(w2)
print("Output:")
print(model_network.predict(input_mat))
построить модель с двух сверточных слоев
print("Building Model...")
inp = Input(shape=(1,None,None))
x = Convolution2D(1, 3, 3, border_mode='same', init='normal',bias=False)(inp)
output = Convolution2D(1, 3, 3, border_mode='same', init='normal',bias=False)(x)
model_network = Model(input=inp, output=output)
затем определите свои веса (я использую простой w, но вы можете использовать np.случайность.униформа или что-нибудь в этом роде, если хотите)
w = np.asarray([
[[[
[0,0,0],
[0,2,0],
[0,0,0]
]]]
])
взгляните на то, что слои внутри модели
for layer_i in range(len(model_network.layers)):
print (model_network.layers[layer_i])
установите каждый вес для каждого сверточного слоя (вы увидите, что первый слой на самом деле ввод, и вы не хотите это менять, поэтому диапазон начинается с 1, а не с нуля).
for layer_i in range(1,len(model_network.layers)):
model_network.layers[layer_i].set_weights(w)
генерировать некоторые входные данные для вашего теста и предсказать выход из вашей модели
input_mat = np.asarray([
[[
[1.,2.,3.,10.],
[4.,5.,6.,11.],
[7.,8.,9.,12.]
]]
])
print("Output:")
print(model_network.predict(input_mat))
вы можете изменить его снова, если хотите, и проверить еще раз для вывода:
w2 = np.asarray([
[[[
[0,0,0],
[0,3,0],
[0,0,0]
]]]
])
for layer_i in range(1,len(model_network.layers)):
model_network.layers[layer_i].set_weights(w2)
print("Output:")
print(model_network.predict(input_mat))
пример вывода:
Using Theano backend.
Building Model...
<keras.engine.topology.InputLayer object at 0x7fc0c619fd50>
<keras.layers.convolutional.Convolution2D object at 0x7fc0c6166250>
<keras.layers.convolutional.Convolution2D object at 0x7fc0c6150a10>
Weights after change:
[array([[[[ 0., 0., 0.],
[ 0., 2., 0.],
[ 0., 0., 0.]]]], dtype=float32)]
Input:
[[[[ 1. 2. 3. 10.]
[ 4. 5. 6. 11.]
[ 7. 8. 9. 12.]]]]
Output:
[[[[ 4. 8. 12. 40.]
[ 16. 20. 24. 44.]
[ 28. 32. 36. 48.]]]]
Output:
[[[[ 9. 18. 27. 90.]
[ 36. 45. 54. 99.]
[ 63. 72. 81. 108.]]]]
С вашего взгляда .слои вы можете видеть, что первый слой является входным, а другие-сверточными слоями.
сброс всех слоев путем проверки инициализаторов:
def reset_weights(model):
session = K.get_session()
for layer in model.layers:
if hasattr(layer, 'kernel_initializer'):
layer.kernel_initializer.run(session=session)
if hasattr(layer, 'bias_initializer'):
layer.bias_initializer.run(session=session)
хорошо, похоже, у кого-то еще была такая же проблема. Хорошее решение, которое решает проблему (для всех практических целей), было опубликовано здесь:https://gist.github.com/jkleint/eb6dc49c861a1c21b612b568dd188668
K.get_session().close()
K.set_session(tf.Session())
K.get_session().run(tf.global_variables_initializer())