Как поместить мой набор данных в a.pkl файл в точном формате и структуре данных, используемых в "mnist.ПКЛ.gz"?
Я пытаюсь использовать библиотеку Theano в python для проведения некоторых экспериментов с сетями глубокой веры. Я использую код по этому адресу: DBN полный код. Этот код использует MNIST рукописная база данных. Этот файл уже в формате рассол. Он распакован в:
- train_set
- valid_set
- test_set
который далее unpickled в:
- train_set_x, train_set_y = train_set
- valid_set_x, valid_set_y = valid_set
- test_set_x, test_set_y = test_set
пожалуйста, кто-нибудь может дать мне код, который создает этот набор данных для создания моего собственного? Пример DBN, который я использую, нуждается в данных в этом формате, и я не знаю, как это сделать. если у кого-нибудь есть идеи, как это исправить, пожалуйста, скажите мне.
вот мой код:
from datetime import datetime
import time
import os
from pprint import pprint
import numpy as np
import gzip, cPickle
import theano.tensor as T
from theano import function
os.system("cls")
filename = "completeData.txt"
f = open(filename,"r")
X = []
Y = []
for line in f:
line = line.strip('n')
b = line.split(';')
b[0] = float(b[0])
b[1] = float(b[1])
b[2] = float(b[2])
b[3] = float(b[3])
b[4] = float(b[4])
b[5] = float(b[5])
b[6] = float(b[6])
b[7] = float(b[7])
b[8] = float(b[8])
b[9] = float(b[9])
b[10] = float(b[10])
b[11] = float(b[11])
b[12] = float(b[12])
b[13] = float(b[13])
b[14] = float(b[14])
b[15] = float(b[15])
b[17] = int(b[17])
X.append(b[:16])
Y.append(b[17])
Len = len(X);
X = np.asmatrix(X)
Y = np.asarray(Y)
sizes = [0.8, 0.1, 0.1]
arr_index = int(sizes[0]*Len)
arr_index2_start = arr_index + 1
arr_index2_end = arr_index + int(sizes[1]*Len)
arr_index3_start = arr_index2_start + 1
"""
train_set_x = np.array(X[:arr_index])
train_set_y = np.array(Y[:arr_index])
val_set_x = np.array(X[arr_index2_start:arr_index2_end])
val_set_y = np.array(Y[arr_index2_start:arr_index2_end])
test_set_x = np.array(X[arr_index3_start:])
test_set_y = np.array(X[arr_index3_start:])
train_set = train_set_x, train_set_y
val_set = val_set_x, val_set_y
test_set = test_set_x, test_set_y
"""
x = T.dmatrix('x')
z = x
t_mat = function([x],z)
y = T.dvector('y')
k = y
t_vec = function([y],k)
train_set_x = t_mat(X[:arr_index].T)
train_set_y = t_vec(Y[:arr_index])
val_set_x = t_mat(X[arr_index2_start:arr_index2_end].T)
val_set_y = t_vec(Y[arr_index2_start:arr_index2_end])
test_set_x = t_mat(X[arr_index3_start:].T)
test_set_y = t_vec(Y[arr_index3_start:])
train_set = train_set_x, train_set_y
val_set = val_set_x, val_set_y
test_set = test_set_x, test_set_y
dataset = [train_set, val_set, test_set]
f = gzip.open('......datadex.pkl.gz','wb')
cPickle.dump(dataset, f, protocol=-1)
f.close()
pprint(train_set_x.shape)
print('Finishedn')
3 ответов
A .файл pkl не нужен для адаптации кода из учебника Theano к вашим собственным данным. Вам нужно только имитировать их структуру данных.
быстро исправить
найдите следующие строки. Это строка 303 на DBN.py.
datasets = load_data(dataset)
train_set_x, train_set_y = datasets[0]
заменить на свой собственный train_set_x
и train_set_y
.
my_x = []
my_y = []
with open('path_to_file', 'r') as f:
for line in f:
my_list = line.split(' ') # replace with your own separator instead
my_x.append(my_list[1:-1]) # omitting identifier in [0] and target in [-1]
my_y.append(my_list[-1])
train_set_x = theano.shared(numpy.array(my_x, dtype='float64'))
train_set_y = theano.shared(numpy.array(my_y, dtype='float64'))
адаптируйте это к вашим входным данным и используемому вами коду.
то же самое работает для cA.py, dA.py и SdA.py но они используют только train_set_x
.
ищите такие места, как n_ins=28 * 28
где размеры изображения mnist жестко закодированы. Заменить 28 * 28
С вашим собственным количеством столбцов.
объяснение
здесь вы помещаете свои данные в формат, с которым может работать Theano.
train_set_x = theano.shared(numpy.array(my_x, dtype='float64'))
train_set_y = theano.shared(numpy.array(my_y, dtype='float64'))
shared()
превращает массив numpy в формат Theano, предназначенный для эффективности графических процессоров.
dtype='float64'
ожидается в Феано массивов.
подробнее о основные функциональные возможности тензора.
.файл pkl
The .PKL-файл-это способ сохранить структуру данных.
вы можете создать свой собственный.
import cPickle
f = file('my_data.pkl', 'wb')
cPickle.dump((train_set_x, train_set_y), f, protocol=cPickle.HIGHEST_PROTOCOL)
f.close()
подробнее о загрузка и сохранение.
моченые файл представляет собой кортеж из 3 списков : обучающий набор, Набор проверки и тестирования. (поезд, вал, тест)
- каждый из трех списков представляет собой пару, сформированную из списка изображений и списка меток классов для каждого из изображений.
- изображение представлено как numpy 1-мерный массив 784 (28 x 28) значений поплавка между 0 и 1 (0 означает черный, 1-белый).
- ярлыки номера между 0 и 9 показывая какую цифру представляет изображение.
Это может помочь:
from PIL import Image
from numpy import genfromtxt
import gzip, cPickle
from glob import glob
import numpy as np
import pandas as pd
Data, y = dir_to_dataset("trainMNISTForm\*.BMP","trainLabels.csv")
# Data and labels are read
train_set_x = Data[:2093]
val_set_x = Data[2094:4187]
test_set_x = Data[4188:6281]
train_set_y = y[:2093]
val_set_y = y[2094:4187]
test_set_y = y[4188:6281]
# Divided dataset into 3 parts. I had 6281 images.
train_set = train_set_x, train_set_y
val_set = val_set_x, val_set_y
test_set = test_set_x, val_set_y
dataset = [train_set, val_set, test_set]
f = gzip.open('file.pkl.gz','wb')
cPickle.dump(dataset, f, protocol=2)
f.close()
Это функция, которую я использовал. Может измениться в соответствии с вашими данными файла.
def dir_to_dataset(glob_files, loc_train_labels=""):
print("Gonna process:\n\t %s"%glob_files)
dataset = []
for file_count, file_name in enumerate( sorted(glob(glob_files),key=len) ):
image = Image.open(file_name)
img = Image.open(file_name).convert('LA') #tograyscale
pixels = [f[0] for f in list(img.getdata())]
dataset.append(pixels)
if file_count % 1000 == 0:
print("\t %s files processed"%file_count)
# outfile = glob_files+"out"
# np.save(outfile, dataset)
if len(loc_train_labels) > 0:
df = pd.read_csv(loc_train_labels)
return np.array(dataset), np.array(df["Class"])
else:
return np.array(dataset)