Изменения

R:Оптимизация/Импорт данных

1279 байтов добавлено, 14:49, 6 апреля 2014
м
Примечания
Таким образом, функция <code>fread()</code> является более быстрым и более удобным (за счёт автоматического определения входных параметров) инструментом по сравнению со штатной функцией <code>read.table()</code> (даже при использовании оптимальных параметров).
 
== Формат RData/Rds ==
 
Форматы RData/Rds являются внутренними форматами в R. Данные форматы характеризуются тем, что имеют двоичный вид и предполагают сжатие данных. Хотя CSV являются наиболее универсальным форматом, для работы с данными в R предпочтительнее использовать внутренние форматы R.
 
Сравним скорость записи данных в формат CSV и двоичный формат RData:
 
{{r-code|code=<nowiki>> tmp.csv <- tempfile(fileext = "csv")
> tmp.RData <- tempfile(fileext = "RData")
> microbenchmark(text = write.table(DF, file = tmp.csv, sep = ";", row.names = FALSE),
+ binary = save(DF, file = tmp.RData))
Unit: seconds
expr min lq median uq max neval
text 4.658 4.737 4.755 4.825 5.526 100
binary 2.202 2.203 2.205 2.210 2.248 100</nowiki>}}
 
Отметим, что запись производилась в файловую систему [http://ru.wikipedia.org/wiki/Tmpfs tmpfs], размещённую непосредственно в оперативной памяти.
== Примечания ==