Самый быстрый способ записи файлов HDF5 с Python?
учитывая большой (10 ГБ) CSV-файл смешанного текста / чисел, каков самый быстрый способ создать файл HDF5 с тем же содержимым, сохраняя при этом разумное использование памяти?
Я хотел бы использовать h5py
модуль, если это возможно.
в Примере игрушки ниже я нашел невероятно медленный и невероятно быстрый способ записи данных в HDF5. Было бы лучше всего писать в HDF5 кусками по 10 000 строк или около того? Или есть лучший способ написать огромное количество данные к такому файлу?
import h5py
n = 10000000
f = h5py.File('foo.h5','w')
dset = f.create_dataset('int',(n,),'i')
# this is terribly slow
for i in xrange(n):
dset[i] = i
# instantaneous
dset[...] = 42
3 ответов
Я бы избегал разбиения данных на блоки и хранил бы данные как ряды наборов данных с одним массивом (в соответствии с тем, что предлагает Бенджамин). Я только что закончил загрузку вывода корпоративного приложения, над которым я работал, в HDF5 и смог упаковать около 4,5 миллиардов составных типов данных в виде 450 000 наборов данных, каждый из которых содержит массив данных 10 000. Записи и чтения теперь кажутся довольно мгновенными, но были болезненно медленными, когда я изначально пытался разбить данные.
просто мысль!
обновление:
это несколько фрагментов, снятых с моего фактического кода (я кодирую на C против Python, но вы должны получить представление о том, что я делаю) и изменены для ясности. Я просто пишу длинные целые числа без знака в массивах (10 000 значений на массив) и читаю их, когда мне нужно фактическое значение
Это мой типичный код писателя. В этом случае я просто пишу длинную целочисленную последовательность без знака в последовательность массивов и загружаю каждый массив последовательность в hdf5 по мере их создания.
//Our dummy data: a rolling count of long unsigned integers
long unsigned int k = 0UL;
//We'll use this to store our dummy data, 10,000 at a time
long unsigned int kValues[NUMPERDATASET];
//Create the SS adata files.
hid_t ssdb = H5Fcreate(SSHDF, H5F_ACC_TRUNC, H5P_DEFAULT, H5P_DEFAULT);
//NUMPERDATASET = 10,000, so we get a 1 x 10,000 array
hsize_t dsDim[1] = {NUMPERDATASET};
//Create the data space.
hid_t dSpace = H5Screate_simple(1, dsDim, NULL);
//NUMDATASETS = MAXSSVALUE / NUMPERDATASET, where MAXSSVALUE = 4,500,000,000
for (unsigned long int i = 0UL; i < NUMDATASETS; i++){
for (unsigned long int j = 0UL; j < NUMPERDATASET; j++){
kValues[j] = k;
k += 1UL;
}
//Create the data set.
dssSet = H5Dcreate2(ssdb, g_strdup_printf("%lu", i), H5T_NATIVE_ULONG, dSpace, H5P_DEFAULT, H5P_DEFAULT, H5P_DEFAULT);
//Write data to the data set.
H5Dwrite(dssSet, H5T_NATIVE_ULONG, H5S_ALL, H5S_ALL, H5P_DEFAULT, kValues);
//Close the data set.
H5Dclose(dssSet);
}
//Release the data space
H5Sclose(dSpace);
//Close the data files.
H5Fclose(ssdb);
это слегка измененная версия моего кода читателя. Есть более элегантные способы сделать это (т. е. я мог бы использовать гиперплоскости, чтобы получить значение), но это было самое чистое решение в отношении моего довольно дисциплинированного процесса разработки Agile/BDD.
unsigned long int getValueByIndex(unsigned long int nnValue){
//NUMPERDATASET = 10,000
unsigned long int ssValue[NUMPERDATASET];
//MAXSSVALUE = 4,500,000,000; i takes the smaller value of MAXSSVALUE or nnValue
//to avoid index out of range error
unsigned long int i = MIN(MAXSSVALUE-1,nnValue);
//Open the data file in read-write mode.
hid_t db = H5Fopen(_indexFilePath, H5F_ACC_RDONLY, H5P_DEFAULT);
//Create the data set. In this case, each dataset consists of a array of 10,000
//unsigned long int and is named according to its integer division value of i divided
//by the number per data set.
hid_t dSet = H5Dopen(db, g_strdup_printf("%lu", i / NUMPERDATASET), H5P_DEFAULT);
//Read the data set array.
H5Dread(dSet, H5T_NATIVE_ULONG, H5S_ALL, H5S_ALL, H5P_DEFAULT, ssValue);
//Close the data set.
H5Dclose(dSet);
//Close the data file.
H5Fclose(db);
//Return the indexed value by using the modulus of i divided by the number per dataset
return ssValue[i % NUMPERDATASET];
}
основным выводом является внутренний цикл в коде записи и операции целочисленного деления и mod для получения индекса массива dataset и индекса желаемое значение в этом массиве. Дайте мне знать, если это достаточно ясно, чтобы вы могли собрать что-то подобное или лучше в h5py. В C это очень просто и дает мне значительно лучшее время чтения/записи по сравнению с фрагментированным решением набора данных. Кроме того, поскольку я не могу использовать сжатие с составными наборами данных в любом случае, очевидный плюс чанкинга-спорная точка, поэтому все мои соединения хранятся одинаково.
используя гибкость numpy.loadtxt
получит данные из файла в numpy array
, который в свою очередь идеально подходит для инициализации hdf5
dataset.
import h5py
import numpy as np
d = np.loadtxt('data.txt')
h = h5py.File('data.hdf5', 'w')
dset = h.create_dataset('data', data=d)
Я не уверен, что это самый эффективный способ (и я никогда не использовал его; я просто собираю некоторые инструменты, которые я использовал независимо), но вы можете прочитать csv-файл в numpy recarray, используя matplotlib вспомогательные методы для csv.
вы, вероятно, можете найти способ прочитать csv-файлы в кусках, а также, чтобы избежать загрузки всего этого на диск. Затем используйте recarray (или срезы в нем), чтобы записать все (или большие куски) в набор данных h5py. Я не совсем уверен, как h5py обрабатывает recarrays, но документация указывает, что это должно быть в порядке.
в основном, если это возможно, попробуйте написать большие куски данных сразу вместо итерации по отдельным элементам.
еще одна возможность для чтения файла csv-это просто numpy.genfromtxt
вы можете захватить столбцы, которые вы хотите, используя ключевое слово usecols
, а затем только читать в указанном наборе строк, правильно установив skip_header
и skip_footer
ключевое слово.