Доступ к содержимому массива из a.файл mat загружен с помощью Scipy.Ио.loadmat-python

UPDATE: это длинный вопрос, который сводится к тому, может ли кто-нибудь объяснить мне класс массива numpy? Я ответил на свой вопрос ниже.

Я работаю над проектом по импорту данных из matlab в базу данных mysql, содержимое которой будет доступно через веб-сайт django. Я хочу использовать Scipy.Ио.loadmat для получения информации из matlab в форму, которую я могу использовать в python, чтобы я мог вводить данные в базу данных с помощью django прикладной программный интерфейс.

моя проблема в том, что я не могу работать с данными, импортированными scipy.Ио.loadmat. Он загружается в виде нескольких вложенных массивов, и некоторые имена переменных, похоже, теряются.

вот код matlab для тестовой структуры, которую я создал для пробной версии:

sensors.time = [0:1:10].';
sensors.sensor1 = {};
sensors.sensor1.source_type = 'flight';                          
sensors.sensor1.source_name = 'flight-2';                       
sensors.sensor1.channels = {};
sensors.sensor1.channels.channel1.name = '1';                    
sensors.sensor1.channels.channel1.local_ori = 'lateral';         
sensors.sensor1.channels.channel1.vehicle_ori = 'axial';         
sensors.sensor1.channels.channel1.signals = {};
sensors.sensor1.channels.channel1.signals.signal1.filtered = 'N';
sensors.sensor1.channels.channel1.signals.signal1.filtered_description = 'none'; 
sensors.sensor1.channels.channel1.signals.signal1.data = sin(sensors.time)+0.1*rand(11,1); 

>> sensors
      time: [11x1 double]
      sensor1: [1x1 struct]
>> sensors.sensor1
      source_type: 'flight'
      source_name: 'flight-2'
      channels: [1x1 struct]
>> sensors.sensor1.channels
      channel1: [1x1 struct]
>> sensors.sensor1.channels.channel1
      name: '1'
      local_ori: 'lateral'
      vehicle_ori: 'axial'
      signals: [1x1 struct]
>> sensors.sensor1.channels.channel1.signals
      signal1: [1x1 struct]
>> sensors.sensor1.channels.channel1.signals.signal1
      filtered: 'N'
      filtered_description: 'none'
      data: [11x1 double]

Я могу легко визуализировать эту структуру как словарь python, поэтому не похоже, что это должно быть такое сложное упражнение.

вот код python, который я использовал чтобы прочитать файл (в конечном итоге я хочу прочитать в нескольких файлах):

from scipy
import os, glob

path = 'C:UserscDesktopimport'
for f in glob.glob( os.path.join(path, '*.mat')):
    matfile = scipy.io.loadmat(f, struct_as_record=True)

это результирующий словарь из loadmat:

>>> matfile
{'sensors': array([[ ([[0], [1], [2], [3], [4], [5], [6], [7], [8], [9], [10]],[[(array([u'flight'], 
      dtype='<U6'), array([u'flight-2'], 
      dtype='<U8'), array([[ ([[(array([u'1'], 
      dtype='<U1'), array([u'lateral'], 
      dtype='<U7'), array([u'axial'], 
      dtype='<U5'), array([[ ([[(array([u'N'], 
      dtype='<U1'), array([u'none'], 
      dtype='<U4'), array([[ 0.06273465],[ 0.84363597],[ 1.00035443],[ 0.22117587],[-0.68221775],[-0.87761299],[-0.24108487],[ 0.71871452],[ 1.04690773],[ 0.46512366],[-0.51651414]]))]],)]],
      dtype=[('signal1', '|O4')]))]],)]], 
      dtype=[('channel1', '|O4')]))]])]], 
      dtype=[('time', '|O4'), ('sensor1', '|O4')]), '__version__': '1.0', '__header__': 'MATLAB 5.0 MAT-file, Platform: PCWIN64, Created on: Tue Jun 07 18:38:32 2011', '__globals__': []}

данные все есть, но я не знаю, как получить доступ к этим объектам класса. Я хотел бы иметь возможность зацикливаться на содержимом, чтобы я мог обрабатывать несколько датчиков, затем несколько каналов для каждого датчика и т. д.

любые объяснения, которые помогут мне упростить эту структуру данных или предлагаемые изменения, чтобы сделать это проще очень признателен.


обновление, основываясь на предложении Ника, вот repr(matfile) и dir (matfile)

>>> repr(matfile)
"{'sensors': array([[ ([[0], [1], [2], [3], [4], [5], [6], [7], [8], [9], [10]], [[(array([u'flight'], n      dtype='<U6'), array([u'flight-2'], n      dtype='<U8'), array([[ ([[(array([u'1'], n      dtype='<U1'), array([u'lateral'], n      dtype='<U7'), array([u'axial'], n      dtype='<U5'), array([[ ([[(array([u'N'], n      dtype='<U1'), array([u'none'], n      dtype='<U4'), array([[ 0.0248629 ],n       [ 0.88663486],n       [ 0.93206871],n       [ 0.22156497],n       [-0.65819207],n       [-0.95592508],n       [-0.22584908],n       [ 0.66569432],n       [ 1.06956739],n       [ 0.51103298],n       [-0.53732649]]))]], [[(array([u'Y'], n      dtype='<U1'), array([u'1. 5 Hz High Pass, 2. remove offset'], n      dtype='<U35'), array([[ 0.        ],n       [ 0.84147098],n       [ 0.90929743],n       [ 0.14112001],n       [-0.7568025 ],n       [-0.95892427],n       [-0.2794155 ],n       [ 0.6569866 ],n       [ 0.98935825],n       [ 0.41211849],n       [-0.54402111]]))]])]], n      dtype=[('signal1', '|O4'), ('signal2', '|O4')]))]],)]], n      dtype=[('channel1', '|O4')]))]])]], n      dtype=[('time', '|O4'), ('sensor1', '|O4')]), '__version__': '1.0', '__header__': 'MATLAB 5.0 MAT-file, Platform: PCWIN64, Created on: Wed Jun 08 10:58:19 2011', '__globals__': []}"

>>> dir(matfile)
['__class__', '__cmp__', '__contains__', '__delattr__', '__delitem__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__init__', '__iter__', '__le__', '__len__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setitem__', '__sizeof__', '__str__', '__subclasshook__', 'clear', 'copy', 'fromkeys', 'get', 'has_key', 'items', 'iteritems', 'iterkeys', 'itervalues', 'keys', 'pop', 'popitem', 'setdefault', 'update', 'values', 'viewitems', 'viewkeys', 'viewvalues']

>>> dir(matfile['sensors'])
['T', '__abs__', '__add__', '__and__', '__array__', '__array_finalize__', '__array_interface__', '__array_prepare__', '__array_priority__', '__array_struct__', '__array_wrap__', '__class__', '__contains__', '__copy__', '__deepcopy__', '__delattr__', '__delitem__', '__delslice__', '__div__', '__divmod__', '__doc__', '__eq__', '__float__', '__floordiv__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getslice__', '__gt__', '__hash__', '__hex__', '__iadd__', '__iand__', '__idiv__', '__ifloordiv__', '__ilshift__', '__imod__', '__imul__', '__index__', '__init__', '__int__', '__invert__', '__ior__', '__ipow__', '__irshift__', '__isub__', '__iter__', '__itruediv__', '__ixor__', '__le__', '__len__', '__long__', '__lshift__', '__lt__', '__mod__', '__mul__', '__ne__', '__neg__', '__new__', '__nonzero__', '__oct__', '__or__', '__pos__', '__pow__', '__radd__', '__rand__', '__rdiv__', '__rdivmod__', '__reduce__', '__reduce_ex__', '__repr__', '__rfloordiv__', '__rlshift__', '__rmod__', '__rmul__', '__ror__', '__rpow__', '__rrshift__', '__rshift__', '__rsub__', '__rtruediv__', '__rxor__', '__setattr__', '__setitem__', '__setslice__', '__setstate__', '__sizeof__', '__str__', '__sub__', '__subclasshook__', '__truediv__', '__xor__', 'all', 'any', 'argmax', 'argmin', 'argsort', 'astype', 'base', 'byteswap', 'choose', 'clip', 'compress', 'conj', 'conjugate', 'copy', 'ctypes', 'cumprod', 'cumsum', 'data', 'diagonal', 'dot', 'dtype', 'dump', 'dumps', 'fill', 'flags', 'flat', 'flatten', 'getfield', 'imag', 'item', 'itemset', 'itemsize', 'max', 'mean', 'min', 'nbytes', 'ndim', 'newbyteorder', 'nonzero', 'prod', 'ptp', 'put', 'ravel', 'real', 'repeat', 'reshape', 'resize', 'round', 'searchsorted', 'setfield', 'setflags', 'shape', 'size', 'sort', 'squeeze', 'std', 'strides', 'sum', 'swapaxes', 'take', 'tofile', 'tolist', 'tostring', 'trace', 'transpose', 'var', 'view']

очевидно, мне нужно немного узнать об объектах и классах. Как я могу вытащить биты массива и поместить их в переменные. Например:

time = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
source_type = 'flight'
etc.   

2 ответов


я столкнулся с аналогичной проблемой с довольно сложным файлом mat в нашей компании. Я все еще пытаюсь понять модуль scipy IO, но вот что мы нашли.

при доступе к matfile ['sensors'] он возвращает scipy.Ио.matlab.mio5_params.mat_struct объект, который мы можем использовать для доступа к содержимому ниже. Когда вы печатаете его, он выглядит как плоский массив, но вы все равно можете получить доступ к dict, чтобы добраться до отдельных компонентов. Так что ты можешь запустить что-то вроде этого, чтобы начать. доступ к компонентам:

from scipy.io import loadmat
matfile = loadmat('myfile.mat', squeeze_me=True, struct_as_record=False)
matfile['sensors'].sensor1.channels.channel1.name

в вашем случае вы хотите иметь возможность перебирать элементы в структуре, что вы можете сделать, если у вас есть доступ к свойству _fieldnames объекта mat_struct. Оттуда вы можете просто перебирать имена полей и получать к ним доступ с помощью getattr:

for field in matfile['sensors']._fieldnames:
    # getattr will return the value for the given key
    print getattr(matfile['sensors'], field)

это, по крайней мере, позволяет нам получить доступ к глубоко вложенным элементам без необходимости изменять наши файлы mat.


решение, к которому я прибегнул, заключалось в упрощении структуры MATLAB. Я исключил вложенные структуры. Каждый набор данных находится в одном файле, и я использовал python для перебора всех файлов определенного типа в указанном каталоге. (http://bogdan.org.ua/2007/08/12/python-iterate-and-read-all-files-in-a-directory-folder.html если вы хотите увидеть пример этого.)

импорт плоской структуры matlab приводит к словарю, в котором имена переменных matlab являются ключи. Строки входят как массивы формы (1,) --> [ string], а числа входят как массивы формы (N, M) --> [[ numbers]].

Мне все еще нужно узнать немного больше о массивах numpy.