Изменения

R:Оптимизация/Импорт данных

375 байтов добавлено, 00:10, 7 апреля 2014
м
Формат RData/Rds
Форматы RData/Rds являются внутренними форматами в R. Данные форматы характеризуются тем, что имеют двоичный вид и предполагают сжатие данных. Хотя CSV являются наиболее универсальным форматом, для работы с данными в R предпочтительнее использовать внутренние форматы R.
Сравним скорость записи данных в формат CSV и в двоичный формат RData:
{{r-code|code=<nowiki>> tmp.csv <- tempfile(fileext = "csv")
text 4.658 4.737 4.755 4.825 5.526 100
binary 2.202 2.203 2.205 2.210 2.248 100</nowiki>}}
 
Размеры полученных файлов в мегабайтах:
 
{{r-code|code=<nowiki>> file.info(tmp.RData)$size / 1024^2
[1] 25
> file.info(tmp.csv)$size / 1024^2
[1] 60.77</nowiki>}}
 
Теперь сравним скорость чтения данных с помощью функций <code>read.table()</code>, <code>fread()</code> и <code>load()</code>:
{{r-code|code=<nowiki>> microbenchmark(defaults = read.table(tmp.csv, sep = ";", header = TRUE),