Как расплавить и отлить фреймы данных с помощью dplyr?
недавно я делаю все мои манипуляции с данными с помощью dplyr, и это отличный инструмент для этого. Однако я не могу расплавить или отлить фрейм данных с помощью dplyr. Есть ли способ сделать это? Сейчас я использую reshape2 для этой цели.
Я хочу решение "dplyr" для:
require(reshape2)
data(iris)
dat <- melt(iris,id.vars="Species")
3 ответов
правопреемником reshape2
is tidyr
. Эквивалент melt()
и dcast()
are gather()
и spread()
соответственно. Эквивалентом вашего кода тогда будет
library(tidyr)
data(iris)
dat <- gather(iris, variable, value, -Species)
если у вас magrittr
импортированный вы можете использовать оператора трубы, как в dplyr
, то есть написать
dat <- iris %>% gather(variable, value, -Species)
обратите внимание, что вам нужно указать имена переменных и значений явно, в отличие от melt()
. Я нахожу синтаксис gather()
довольно удобно, потому что вы можете просто указать столбцы, которые вы хотите преобразовать в длинный формат, или указать те, которые вы хотите сохранить в новом фрейме данных, префиксом их с '-' (так же, как для видов выше), что немного быстрее ввести, чем в melt()
. Однако, я заметил, что на моей машине, по крайней мере, tidyr
может быть заметно медленнее, чем reshape2
.
редактировать в ответ на комментарий @hadley ниже, я публикую некоторую информацию о времени, сравнивая две функции на моем компьютере.
library(microbenchmark)
microbenchmark(
melt = melt(iris,id.vars="Species"),
gather = gather(iris, variable, value, -Species)
)
# Unit: microseconds
# expr min lq median uq max neval
# melt 278.829 290.7420 295.797 320.5730 389.626 100
# gather 536.974 552.2515 567.395 683.2515 1488.229 100
set.seed(1)
iris1 <- iris[sample(1:nrow(iris), 1e6, replace = T), ]
system.time(melt(iris1,id.vars="Species"))
# user system elapsed
# 0.012 0.024 0.036
system.time(gather(iris1, variable, value, -Species))
# user system elapsed
# 0.364 0.024 0.387
sessionInfo()
# R version 3.1.1 (2014-07-10)
# Platform: x86_64-pc-linux-gnu (64-bit)
#
# locale:
# [1] LC_CTYPE=en_GB.UTF-8 LC_NUMERIC=C
# [3] LC_TIME=en_GB.UTF-8 LC_COLLATE=en_GB.UTF-8
# [5] LC_MONETARY=en_GB.UTF-8 LC_MESSAGES=en_GB.UTF-8
# [7] LC_PAPER=en_GB.UTF-8 LC_NAME=C
# [9] LC_ADDRESS=C LC_TELEPHONE=C
# [11] LC_MEASUREMENT=en_GB.UTF-8 LC_IDENTIFICATION=C
# attached base packages:
# [1] stats graphics grDevices utils datasets methods base
#
# other attached packages:
# [1] reshape2_1.4 microbenchmark_1.3-0 magrittr_1.0.1
# [4] tidyr_0.1
#
# loaded via a namespace (and not attached):
# [1] assertthat_0.1 dplyr_0.2 parallel_3.1.1 plyr_1.8.1 Rcpp_0.11.2
# [6] stringr_0.6.2 tools_3.1.1
кроме того, cast может использовать tidyr::spread()
например
library(reshape2)
library(tidyr)
library(dplyr)
# example data : `mini_iris`
(mini_iris <- iris[c(1, 51, 101), ])
# melt
(melted1 <- mini_iris %>% melt(id.vars = "Species")) # on reshape2
(melted2 <- mini_iris %>% gather(variable, value, -Species)) # on tidyr
# cast
melted1 %>% dcast(Species ~ variable, value.var = "value") # on reshape2
melted2 %>% spread(variable, value) # on tidyr
чтобы добавить к ответам выше, используя @Lovetoken's mini_iris
пример (это слишком сложно для комментария) - для тех новичков, которые не понимают, что такое расплав и литье.
library(reshape2)
library(tidyr)
library(dplyr)
# example data : `mini_iris`
mini_iris <- iris[c(1, 51, 101), ]
# mini_iris
#Sepal.Length Sepal.Width Petal.Length Petal.Width Species
#1 5.1 3.5 1.4 0.2 setosa
#51 7.0 3.2 4.7 1.4 versicolor
#101 6.3 3.3 6.0 2.5 virginica
Melt принимает фрейм данных и расширяется в длинный список значений. Не эффективно, но может быть полезно, если вам нужно объединить наборы данных. подумайте о структуре кубика льда, плавящегося на столе и распространяющегося.
melted1 <- testiris %>% melt(id.vars = "Species")
> nrow(melted1)
[1] 12
head(melted1)
# Species variable value
# 1 setosa Sepal.Length 5.1
# 2 versicolor Sepal.Length 7.0
# 3 virginica Sepal.Length 6.3
# 4 setosa Sepal.Width 3.5
# 5 versicolor Sepal.Width 3.2
# 6 virginica Sepal.Width 3.3
вы можете увидеть, как теперь данные разбиты на множество строк значений. Имена столбцов теперь являются текстом в столбце переменной.
кастинг будет собран обратно в данные.таблица или данные.рамка.