Пример двух фреймов данных pandas одинаково
Я делаю вычисления машинного обучения, имеющие два фрейма данных-один для факторов, а другой для целевых значений. Я должен разделиться на тренировочную и тестовую части. Мне кажется, что я нашел способ, но я ищу более элегантное решение. Вот мой код:
import pandas as pd
import numpy as np
import random
df_source = pd.DataFrame(np.random.randn(5,2),index = range(0,10,2), columns=list('AB'))
df_target = pd.DataFrame(np.random.randn(5,2),index = range(0,10,2), columns=list('CD'))
rows = np.asarray(random.sample(range(0, len(df_source)), 2))
df_source_train = df_source.iloc[rows]
df_source_test = df_source[~df_source.index.isin(df_source_train.index)]
df_target_train = df_target.iloc[rows]
df_target_test = df_target[~df_target.index.isin(df_target_train.index)]
print('rows')
print(rows)
print('source')
print(df_source)
print('source train')
print(df_source_train)
print('source_test')
print(df_source_test)
- - - - отредактировано-решение unutbu (midified) - - -
np.random.seed(2013)
percentile = .6
rows = np.random.binomial(1, percentile, size=len(df_source)).astype(bool)
df_source_train = df_source[rows]
df_source_test = df_source[~rows]
df_target_train = df_target[rows]
df_target_test = df_target[~rows]
1 ответов
если вы rows
логический массив длины len(df)
, тогда вы можете получить True
строки df[rows]
и получает False
строки df[~rows]
:
import pandas as pd
import numpy as np
import random
np.random.seed(2013)
df_source = pd.DataFrame(
np.random.randn(5, 2), index=range(0, 10, 2), columns=list('AB'))
rows = np.random.randint(2, size=len(df_source)).astype('bool')
df_source_train = df_source[rows]
df_source_test = df_source[~rows]
print(rows)
# [ True True False True False]
# if for some reason you need the index values of where `rows` is True
print(np.where(rows))
# (array([0, 1, 3]),)
print(df_source)
# A B
# 0 0.279545 0.107474
# 2 0.651458 -1.516999
# 4 -1.320541 0.679631
# 6 0.833612 0.492572
# 8 1.555721 1.741279
print(df_source_train)
# A B
# 0 0.279545 0.107474
# 2 0.651458 -1.516999
# 6 0.833612 0.492572
print(df_source_test)
# A B
# 4 -1.320541 0.679631
# 8 1.555721 1.741279