Замена запятых и точек в R

у меня есть целый столбец чисел, которые включают разделители точек на тысячи и запятую вместо точки как мрачный разделитель. Когда я пытаюсь создать числовой столбец из них, я теряю все данные.

var1 <- c("50,0", "72,0", "960,0", "1.920,0", "50,0", "50,0", "960,0")
df <- cbind(var1, var2 = as.numeric(gsub(".", "", as.character(var1))))

и закончил:

 var1      var2
[1,] "50,0"    NA  
[2,] "72,0"    NA  
[3,] "960,0"   NA  
[4,] "1.920,0" NA  
[5,] "50,0"    NA  
[6,] "50,0"    NA  
[7,] "960,0"   NA 

что я делаю не так?

3 ответов


вам нужно избежать "." в вашем регулярном выражении, и вам нужно заменить запятые на "." перед преобразованием в numeric.

> as.numeric(gsub(",", ".", gsub("\.", "", var1)))
[1]   50   72  960 1920   50   50  960

для таких вещей, как эти, мне нравится scan() больше всего, потому что это легко понять. Просто используйте

scan(text=var1, dec=",", sep=".")

увы, это не быстрее, чем gsub(), который с другой стороны, кажется, подавлен. Следовательно, другой и быстрый вариант -sub():

as.numeric(sub(",", ".", sub(".", "", var1, fixed=TRUE), fixed=TRUE))

и на всякий случай: когда вы читаете var1 из файла напрямую, просто прочитайте его с указанным разделителем:read.table("file.txt", dec=",", sep=".")


вы можете использовать функцию "type_convert", из пакета "readr". Я читаю файл ODS (язык португальский) и конвертирую числа:

library('readODS')
library('tidyverse')
data <- read_ods('mod-preditivo.ods', sheet=1,col_names = TRUE,range='a1:b30',col_types=NA)
df <- type_convert(data,trim_ws=TRUE,col_types = cols(Pesos=col_integer(),Alturas=col_double()),locale = locale(decimal_mark = ","))
str(df)