R:Оптимизация/Импорт данных — различия между версиями

Версия 13:29, 6 апреля 2014

При обработке данных большого объёма имеет смысл импортировать только ту часть данных, которая непосредственно участвует в обработке. Это целесообразно как с точки зрения расхода оперативной памяти, так и скорости выполнения операций поиска, сортировки и фильтрации данных.

Импорт CSV

Функция `read.table()`

Для импорта файлов CSV в R предусмотрена функция read.table() и функци-обёртка (wrapper) read.csv(). С точки зрения скорости работы, параметры функции read.table(), заданные по умолчанию, не являются оптимальными. Приведём несколько рекомендаций по использованию функции read.table():

указать тип переменных, содержащихся в таблице с помощью аргумента colClasses;
указать количество импортируемых строк с помощью аргумента nrows;
отключить поиск комментариев с помощью аргумента comment.char = "".

Создадим таблицу данных содержащую [math]10^{6}[/math] строк и 6 столбцов:

КодR

Рассмотрим таблицу более подробно. Начало таблицы:

КодR

Структура данных:

КодR

<syntaxhighlight lang="r">> str(DF) 'data.frame': 1000000 obs. of 6 variables: $ a: int 288 789 409 884 941 46 529 893 552 457 ... $ b: int 604 242 65 700 594 843 746 303 416 862 ... $ c: Factor w/ 10 levels "A","B","C","D",..: 2 3 10 10 4 9 10 10 7 4 ... $ e: num 1.453 -1.448 0.418 -0.919 0.736 ... $ d: num 107.4 82.3 113.1 98.5 122 ... $ f: num 546 949 490 825 484 ...</syntaxhighlight>

Типы переменных:

КодR

<syntaxhighlight lang="r">> sapply(DF, class) a b c e d f "integer" "integer" "factor" "numeric" "numeric" "numeric"</syntaxhighlight>

Размер объекта в оперативной памяти:

КодR

<syntaxhighlight lang="r">> print(object.size(DF), units = "auto") 34.3 Mb</syntaxhighlight>

Сохраним таблицу в csv-файл следующими командами:

КодR

<syntaxhighlight lang="r">> tmp.csv <- tempfile(fileext=".csv") # генерируем имя и путь для временного файла > write.table(DF, tmp.csv, sep = ";", row.names = FALSE)</syntaxhighlight>

Размер полученного файла составил:

КодR

<syntaxhighlight lang="r">> file.info(tmp.csv)$size # размер файла в байтах [1] 61724411 > file.info(tmp.csv)$size / 1024^2 # размер файла в мегабайтах [1] 58.86</syntaxhighlight>

Теперь мы можем сравнить производительность функции read.table() с параметрами по умолчанию и парамтерами, рекомендованными для увеличения производительности данной функции. Для этого нам понадобится пакет microbenchmark.

КодR

<syntaxhighlight lang="r">> microbenchmark(defaults = read.table(tmp.csv, sep = ";", header = TRUE), + ompimize = read.table(tmp.csv, sep = ";", header = TRUE, + colClasses = c("integer", "integer", "factor", "numeric", "numeric", "numeric"), + nrows = N, comment.char = "")) Unit: seconds expr min lq median uq max neval defaults 6.204 6.673 7.024 7.253 10.996 100 ompimize 2.833 2.858 2.921 3.161 3.202 100</syntaxhighlight>

Значения для аргумента colClasses мы получили ранее с помощью команды sapply(DF, class).

По результатам сравнения, можем заключить, что указание специфических аргументов функции read.table() позволяет существенно ускорить процесс импорта данных в формате CSV.

Функция `scan()`

Функция `fread()`

Пакет data.table, помимо прочего, включает в себя функцию для чтения csv-файлов - fread(). Стоит отметить, что полученная в результате импорта переменная будет иметь класс data.table, что предполагает определённую специфику работы с ней^[1].

Сравним результаты работы функций read.table() и fread():

КодR

<syntaxhighlight lang="r">> library(data.table) > microbenchmark(defaults = read.table(tmp.csv, sep = ";", header = TRUE), + ompimize = read.table(tmp.csv, sep = ";", header = TRUE, + colClasses = c("integer", "integer", "factor", "numeric", "numeric", "numeric"), + nrows = N, comment.char = "", quote=""), + data.table = fread(tmp.csv)) Unit: milliseconds expr min lq median uq max neval defaults 5344.4 8063.6 8513.6 8853.0 13602.0 100 ompimize 2839.3 2856.9 2896.7 3203.7 3573.5 100 data.table 526.6 528.2 535.9 578.2 932.3 100</syntaxhighlight>

Таким образом, функция fread() является более быстрым и более удобным (за счёт автоматического определения входных параметров) инструментом по сравнению со штатной функцией read.table() (даже при использовании оптимальных параметров).

Примечания

↑ Синтаксис работы с классом data.table отличен от синтаксиса работы с матрицами и таблицами данных в R.

[1] Синтаксис работы с классом data.table отличен от синтаксиса работы с матрицами и таблицами данных в R.

[1]

@@ Строка 75: / Строка 75: @@
 Unit: seconds
       expr   min    lq median    uq    max neval
-  defaults 6.772 7.419  8.267 8.914 11.026   100
+  defaults 6.204 6.673  7.024 7.253 10.996   100
-  ompimize 2.761 2.782  2.859 2.924  3.037   100</nowiki>}}
+  ompimize 2.833 2.858  2.921 3.161  3.202   100</nowiki>}}
 Значения для аргумента <code>colClasses</code> мы получили ранее с помощью команды <code>sapply(DF, class)</code>.

R:Оптимизация/Импорт данных — различия между версиями

Версия 13:29, 6 апреля 2014

Содержание

Импорт CSV

Функция `read.table()`

Функция `scan()`

Функция `fread()`

Примечания

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Психодиагностика

Язык и среда R

Инструменты

Печать/экспорт

R:Оптимизация/Импорт данных — различия между версиями

Версия 13:29, 6 апреля 2014

Содержание

Импорт CSV

Функция read.table()

Функция scan()

Функция fread()

Примечания

Навигация

Поиск

Функция `read.table()`

Функция `scan()`

Функция `fread()`