R:Оптимизация/Импорт данных — различия между версиями

Версия 16:35, 5 апреля 2014

При обработке данных большого объёма имеет смысл импортировать только ту часть данных, которая непосредственно участвует в обработке. Это целесообразно как с точки зрения расхода оперативной памяти, так и скорости выполнения операций поиска, сортировки и фильтрации данных.

Импорт CSV

Функция `read.table()`

Наиболее распространённым форматом данных для импорта в R является формат CSV. Для импорта файлов CSV в R предусмотрена функция read.table() и функци-обёртка (wrapper) read.csv(). С точки зрения скорости работы, параметры функции read.table(), заданные по умолчанию, не являются оптимальными. Приведём несколько рекомендаций по использованию функции read.table():

указать тип переменных, содержащихся в таблице с помощью аргумента colClasses;
указать количество импортируемых строк с помощью аргумента nrows;
отключить поиск комментариев с помощью аргумента comment.char = "".

Создадим таблицу данных содержащую [math]10^{6}[/math] строк и 6 столбцов:

КодR

Рассмотрим таблицу более подробно. Начало таблицы:

КодR

Структура данных:

КодR

<syntaxhighlight lang="r">> str(DF) 'data.frame': 1000000 obs. of 6 variables: $ a: int 719 551 865 879 66 867 344 786 898 933 ... $ b: int 104 448 236 411 229 579 718 221 68 275 ... $ c: Factor w/ 10 levels "A","B","C","D",..: 3 8 9 2 5 9 3 6 10 7 ... $ e: num -1.878 0.561 0.597 -0.644 -0.544 ... $ d: num 87.2 101.1 117.8 120.4 111.8 ... $ f: num 400 208 623 980 901 ...</syntaxhighlight>

Типы переменных:

КодR

<syntaxhighlight lang="r">> sapply(DF, class) a b c e d f "integer" "integer" "factor" "numeric" "numeric" "numeric"</syntaxhighlight>

Размер объекта в оперативной памяти:

КодR

<syntaxhighlight lang="r">> print(object.size(DF), units = "auto") 34.3 Mb</syntaxhighlight>

Сохраним таблицу в csv-файл следующими командами:

КодR

<syntaxhighlight lang="r">> tmp.csv <- tempfile(fileext=".csv") # генерируем имя и путь для временного файла > write.table(DF, tmp.csv, sep = ";", row.names = FALSE, quote = FALSE)</syntaxhighlight>

Размер полученного файла составил:

КодR

<syntaxhighlight lang="r">> file.info(tmp.csv)$size # размер файла в байтах [1] 61724411 > file.info(tmp.csv)$size / 1024^2 # размер файла в мегабайтах [1] 58.86</syntaxhighlight>

Теперь мы можем сравнить производительность функции read.table() с параметрами по умолчанию и парамтерами, рекомендованными для увеличения производительности данной функции. Для этого нам понадобится пакет microbenchmark.

КодR

<syntaxhighlight lang="r">> microbenchmark(defaults = read.table(tmp.csv, sep = ";", header = TRUE), + ompimize = read.table(tmp.csv, sep = ";", header = TRUE, + colClasses = c("integer", "integer", "factor", "numeric", "numeric", "numeric"), + nrows = N, comment.char = "", quote=""))</syntaxhighlight>

Значения для аргумента colClasses мы получили ранее с помощью команды sapply(DF, class).

@@ Строка 11: / Строка 11: @@
 * отключить поиск комментариев с помощью аргумента <code>comment.char = ""</code>.
-Создадим таблицу данных содержащую <math>10^{5}</math> строк и 6 столбцов:
+Создадим таблицу данных содержащую <math>10^{6}</math> строк и 6 столбцов:
-{{r-code|code=<nowiki>> N <- 10^5L # задаём количество наблюдений
+{{r-code|code=<nowiki>> N <- 10^6L # задаём количество наблюдений
 > DF <- data.frame(a = sample(1:10^3L, N, replace = TRUE),
                     b = sample(1:10^3L, N, replace = TRUE),
@@ Строка 68: / Строка 68: @@
 Теперь мы можем сравнить производительность функции <code>read.table()</code> с параметрами по умолчанию и парамтерами, рекомендованными для увеличения производительности данной функции. Для этого нам понадобится пакет {{r-package|microbenchmark}}.
+{{r-code|code=<nowiki>> microbenchmark(defaults = read.table(tmp.csv, sep = ";", header = TRUE),
++                ompimize = read.table(tmp.csv, sep = ";", header = TRUE,
++                                      colClasses = c("integer", "integer", "factor", "numeric", "numeric", "numeric"),
++                                      nrows = N, comment.char = "", quote=""))</nowiki>}}
+Значения для аргумента <code>colClasses</code> мы получили ранее с помощью команды <code>sapply(DF, class)</code>.
 [[Категория:R]]
 [[Категория:Оптимизация кода]]

R:Оптимизация/Импорт данных — различия между версиями

Версия 16:35, 5 апреля 2014

Импорт CSV

Функция `read.table()`

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Психодиагностика

Язык и среда R

Инструменты

Печать/экспорт

R:Оптимизация/Импорт данных — различия между версиями

Версия 16:35, 5 апреля 2014

Импорт CSV

Функция read.table()

Навигация

Поиск

Функция `read.table()`