Сброс веса в слое Keras

Я хотел бы сбросить (рандомизировать) веса всех слоев в моей модели Keras (deep learning). Причина в том, что я хочу иметь возможность обучать модель несколько раз с различными разделениями данных без необходимости делать (медленную) перекомпиляцию модели каждый раз.

вдохновленный эта дискуссия, Я пробую следующий код:

# Reset weights
for layer in KModel.layers:
    if hasattr(layer,'init'):
        input_dim = layer.input_shape[1]
        new_weights = layer.init((input_dim, layer.output_dim),name='{}_W'.format(layer.name))
        layer.trainable_weights[0].set_value(new_weights.get_value())

однако он работает только частично.

частично, потому что я проверил некоторый слой.get_weights() значения, и они, кажется, меняются. Но когда я перезапускаю обучение, значения затрат намного ниже первоначальных значений затрат при первом запуске. Как будто мне удалось сбросить некоторые веса, но не все.

любые советы о том, где я ошибаюсь, будут глубоко оценены. Тнх..

6 ответов


сохраните начальные веса сразу после компиляции модели, но перед ее обучением:

model.save_weights('model.h5')

а затем после тренировки "перезагрузите" модель, перезагрузив начальные веса:

model.load_weights('model.h5')

это дает вам модель яблок для яблок для сравнения различных наборов данных и должна быть быстрее, чем перекомпиляция всей модели.


Если вы хотите действительно повторно рандомизировать веса, а не просто восстановить начальные веса:

from keras.initializers import glorot_uniform  # Or your initializer of choice

initial_weights = model.get_weights()
new_weights = [glorot_uniform()(w.shape).eval() for w in initial_weights]
model.set_weights(new_weights)

попробовать set_weights.

например:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
from __future__ import print_function
import numpy as np
np.random.seed(1234)
from keras.layers import Input
from keras.layers.convolutional import Convolution2D
from keras.models import Model

print("Building Model...")
inp = Input(shape=(1,None,None))
x   = Convolution2D(1, 3, 3, border_mode='same', init='normal',bias=False)(inp)
output = Convolution2D(1, 3, 3, border_mode='same', init='normal',bias=False)(x)
model_network = Model(input=inp, output=output)

w = np.asarray([ 
    [[[
    [0,0,0],
    [0,2,0],
    [0,0,0]
    ]]]
    ])

for layer_i in range(len(model_network.layers)):
    print (model_network.layers[layer_i])

for layer_i in range(1,len(model_network.layers)):
    model_network.layers[layer_i].set_weights(w)



input_mat = np.asarray([ 
    [[
    [1.,2.,3.,10.],
    [4.,5.,6.,11.],
    [7.,8.,9.,12.]
    ]]
    ])

print("Input:")
print(input_mat)
print("Output:")
print(model_network.predict(input_mat))

w2 = np.asarray([ 
    [[[
    [0,0,0],
    [0,3,0],
    [0,0,0]
    ]]]
    ])


for layer_i in range(1,len(model_network.layers)):
    model_network.layers[layer_i].set_weights(w2)

print("Output:")
print(model_network.predict(input_mat))

построить модель с двух сверточных слоев

print("Building Model...")
inp = Input(shape=(1,None,None))
x   = Convolution2D(1, 3, 3, border_mode='same', init='normal',bias=False)(inp)
output = Convolution2D(1, 3, 3, border_mode='same', init='normal',bias=False)(x)
model_network = Model(input=inp, output=output)

затем определите свои веса (я использую простой w, но вы можете использовать np.случайность.униформа или что-нибудь в этом роде, если хотите)

w = np.asarray([ 
    [[[
    [0,0,0],
    [0,2,0],
    [0,0,0]
    ]]]
    ])

взгляните на то, что слои внутри модели

for layer_i in range(len(model_network.layers)):
    print (model_network.layers[layer_i])

установите каждый вес для каждого сверточного слоя (вы увидите, что первый слой на самом деле ввод, и вы не хотите это менять, поэтому диапазон начинается с 1, а не с нуля).

for layer_i in range(1,len(model_network.layers)):
    model_network.layers[layer_i].set_weights(w)

генерировать некоторые входные данные для вашего теста и предсказать выход из вашей модели

input_mat = np.asarray([ 
    [[
    [1.,2.,3.,10.],
    [4.,5.,6.,11.],
    [7.,8.,9.,12.]
    ]]
    ])

print("Output:")
print(model_network.predict(input_mat))

вы можете изменить его снова, если хотите, и проверить еще раз для вывода:

w2 = np.asarray([ 
    [[[
    [0,0,0],
    [0,3,0],
    [0,0,0]
    ]]]
    ])

for layer_i in range(1,len(model_network.layers)):
    model_network.layers[layer_i].set_weights(w2)

print("Output:")
print(model_network.predict(input_mat))

пример вывода:

Using Theano backend.
Building Model...
<keras.engine.topology.InputLayer object at 0x7fc0c619fd50>
<keras.layers.convolutional.Convolution2D object at 0x7fc0c6166250>
<keras.layers.convolutional.Convolution2D object at 0x7fc0c6150a10>
Weights after change:
[array([[[[ 0.,  0.,  0.],
         [ 0.,  2.,  0.],
         [ 0.,  0.,  0.]]]], dtype=float32)]
Input:
[[[[  1.   2.   3.  10.]
   [  4.   5.   6.  11.]
   [  7.   8.   9.  12.]]]]
Output:
[[[[  4.   8.  12.  40.]
   [ 16.  20.  24.  44.]
   [ 28.  32.  36.  48.]]]]
Output:
[[[[   9.   18.   27.   90.]
   [  36.   45.   54.   99.]
   [  63.   72.   81.  108.]]]]

С вашего взгляда .слои вы можете видеть, что первый слой является входным, а другие-сверточными слоями.


сброс всех слоев путем проверки инициализаторов:

def reset_weights(model):
    session = K.get_session()
    for layer in model.layers: 
        if hasattr(layer, 'kernel_initializer'):
            layer.kernel_initializer.run(session=session)
        if hasattr(layer, 'bias_initializer'):
            layer.bias_initializer.run(session=session)     

хорошо, похоже, у кого-то еще была такая же проблема. Хорошее решение, которое решает проблему (для всех практических целей), было опубликовано здесь:https://gist.github.com/jkleint/eb6dc49c861a1c21b612b568dd188668


K.get_session().close()
K.set_session(tf.Session())
K.get_session().run(tf.global_variables_initializer())