Как читать только строки, которые выполняют условие из csv в R?

Я пытаюсь прочитать большой csv-файл в R. даже если файл большой, я хочу работать только с некоторыми строками, которые выполняют определенное условие (например, Variable2 >= 3). Это гораздо меньший набор данных. Я хотел бы прочитать эти строки непосредственно в фрейм данных, а не загружать весь набор данных в фрейм данных, а затем выбрать в соответствии с условием. Главная причина в том, что набор данных не помещается в памяти настольного компьютера или ноутбука. Я ищу решение, которое использует только R, и не требует Python или других языках. Спасибо.

5 ответов


можно использовать


гораздо проще (в моей книге) использовать предварительную обработку.

R> DF <- data.frame(n=1:26, l=LETTERS)
R> write.csv(DF, file="/tmp/data.csv", row.names=FALSE)
R> read.csv(pipe("awk 'BEGIN {FS=\",\"} {if ( > 20) print }' /tmp/data.csv"),
+           header=FALSE)
  V1 V2
1 21  U
2 22  V
3 23  W
4 24  X
5 25  Y
6 26  Z
R> 

здесь мы используем awk. Мы говорим awk использовать запятую в качестве разделителя полей, а затем использовать условие "если первое поле больше 20", чтобы решить, печатаем ли мы (всю строку через ).

выход из этой команды может быть прочитан R через pipe().

это будет быстрее и эффективнее для памяти, чем чтение everythinb в R.


вы можете читать файл кусками, обрабатывать каждый кусок, а затем сшивать только подмножества вместе.

вот минимальный пример, предполагающий, что файл имеет 1001 (ВКЛ. строки заголовка) и только 100 поместятся в память. Данные имеют 3 столбца, и мы ожидаем, что не более 150 строк удовлетворят условию (это необходимо для предварительного выделения пространства для конечных данных:

# initialize empty data.frame (150 x 3)
max.rows <- 150
final.df <- data.frame(Variable1=rep(NA, max.rows=150), 
                       Variable2=NA,  
                       Variable3=NA)

# read the first chunk outside the loop
temp <- read.csv('big_file.csv', nrows=100, stringsAsFactors=FALSE)
temp <- temp[temp$Variable2 >= 3, ]  ## subset to useful columns
final.df[1:nrow(temp), ] <- temp     ## add to the data
last.row = nrow(temp)                ## keep track of row index, incl. header

for (i in 1:9){    ## nine chunks remaining to be read
  temp <- read.csv('big_file.csv', skip=i*100+1, nrow=100, header=FALSE,
                   stringsAsFactors=FALSE)
  temp <- temp[temp$Variable2 >= 3, ]
  final.df[(last.row+1):(last.row+nrow(temp)), ] <- temp
  last.row <- last.row + nrow(temp)    ## increment the current count
}

final.df <- final.df[1:last.row, ]   ## only keep filled rows
rm(temp)    ## remove last chunk to free memory

Edit: добавил stringsAsFactors=FALSE опция по предложению @lucacerone в комментарии.


Я искал в readr::read_csv_chunked когда я увидел этот вопрос и подумал, что я сделаю некоторые бенчмаркинг. Например, read_csv_chunked делает хорошо и увеличение размера куска было полезно. sqldf был лишь ненамного быстрее, чем awk.

library(tidyverse)
library(sqldf)
library(microbenchmark)

# Generate an example dataset with two numeric columns and 5 million rows
data_frame(
  norm = rnorm(5e6, mean = 5000, sd = 1000),
  unif = runif(5e6, min = 0, max = 10000)
) %>%
write_csv('medium.csv')

microbenchmark(
  readr  = read_csv_chunked('medium.csv', callback = DataFrameCallback$new(function(x, pos) subset(x, unif > 9000)), col_types = 'dd', progress = F),
  readr2 = read_csv_chunked('medium.csv', callback = DataFrameCallback$new(function(x, pos) subset(x, unif > 9000)), col_types = 'dd', progress = F, chunk_size = 1000000),
  sqldf  = read.csv.sql('medium.csv', sql = 'select * from file where unif > 9000', eol = '\n'),
  awk    = read.csv(pipe("awk 'BEGIN {FS=\",\"} {if ( > 9000) print }' medium.csv")),
  awk2   = read_csv(pipe("awk 'BEGIN {FS=\",\"} {if ( > 9000) print }' medium.csv"), col_types = 'dd', progress = F),
  check  = function(values) all(sapply(values[-1], function(x) all.equal(values[[1]], x))),
  times  = 10L
)

# Unit: seconds
#   expr       min        lq      mean    median        uq       max neval
#  readr      5.58      5.79      6.16      5.98      6.68      7.12    10
# readr2      2.94      2.98      3.07      3.03      3.06      3.43    10
#  sqldf     13.59     13.74     14.20     13.91     14.64     15.49    10
#    awk     16.83     16.86     17.07     16.92     17.29     17.77    10
#   awk2     16.86     16.91     16.99     16.92     16.97     17.57    10

вы можете открыть файл в режиме чтения с помощью функции file (например,file("mydata.csv", open = "r")).

вы можете читать по одной строке за раз, используя функцию readLines с опцией n = 1, l = readLines(fc, n = 1).

затем вы должны проанализировать свою строку с помощью функции, такой как strsplit регулярные выражения, или вы можете попробовать пакет stringr (доступно с CRAN).

если строка соответствует условиям импорта данных, вы импортируете ее.

подводя итог, я бы сделал что-то вроде этого:--9-->

df = data.frame(var1=character(), var2=int(), stringsAsFactors = FALSE)
fc = file("myfile.csv", open = "r")

i = 0
while(length( (l <- readLines(fc, n = 1) ) > 0 )){ # note the parenthesis surrounding l <- readLines..

   ##parse l here: and check whether you need to import the data.

   if (need_to_add_data){
     i=i+1
     df[i,] = #list of data to import
  }

}