Изменения

R:Статистическая проверка принадлежности нормальному распределения

5929 байтов добавлено, 05:55, 7 декабря 2014

м

→‎Сравнительная таблица реализации критериев в пакетах

На практике мы встречаемся с двумя вариантами задач по проверке принадлежности распределения нормальному закону: для одномерного и многомерного распределения.

{{~~mbox~~ ~~|type = notice~~ ~~|text = '''Перед использованием функций из пакетов их необходимо предварительно установить и загрузить:'''~~ ~~|text~~Pkg-~~small = <syntaxhighlight lang="rsplus">> install.packages(pkgs = "pkgname")> library(package = "pkgname")</syntaxhighlight>~~req-notice}}

== Одномерное нормальное распределение ==

~~В качестве~~ Нулевой гипотезой (<math>H_0</math> ) для всех нижеприведённых критериев является предположение, что «случайная величина <math>X</math> распределена нормально».

Для демонстрации работы функций, ~~реализующий~~ реализующих различные ~~критерий~~ критерии проверки принадлежности распределения нормальному закону сгенерируем вектор случайных чисел, имеющих стандартное нормальное распределение:

~~<syntaxhighlight lang~~{{r-code|code=~~"rsplus">~~<nowiki>> x <- rnorm(n = ~~100~~1000)</~~syntaxhighlight~~nowiki>}}

=== Статистические критерии ===

~~==== Пакет <code>stats</code> ====~~ В ~~данном пакете реализованы две функции, которые позволяют осуществить проверку принадлежности~~ R реализовано множество критериев проверки соответствия распределения нормальному закону. * <code>shapiro.test</code> - критерий Шапиро - Уилка* <code>ks.test</code> - критерий Колмогорова - Смирнова<ref>Для оценки нормальности вызов выглядит следующим образом:<code>ks.test(x, y = "pnorm")</code></ref> ~~Данные функции возвращают результат в виде S3-класса - <code>htest</code>.~~ ~~==== Пакет <code>nortest</code> ====~~ ~~В данный пакет входят следующие функции:~~

* <code>ad.test</code> - критерий Андерсона - Дарлинга* <code>cvm.test</code> - критерий Крамера - фон Мизеса* <code>lillie.test</code> - критерий Лиллиефорса* <code>pearson.test</code> - критерий <math>\chi^2</math> Пирсона* <code>sf.test</code> - критерий Шапиро - Франчия==== Сравнительная таблица реализации критериев в пакетах ====

~~Данные функции возвращают результат в виде S3~~{| class="wide wikitable sortable" style="text-~~класса~~ align: center"! Критерии !! {{r- package|stats|core=true}} !! {{r-package|nortest}} !! {{r-package|moments}} !! {{r-package|fBasics}} !! {{r-package|tseries}} !! {{r-package|lawstat}}|-| style="text-align: left" | Критерий Шапиро - Уилка || <code>~~htest~~shapiro.test</code>|| - || - || <code>shapiroTest</code> || - || -|-| style="text-align: left" | Критерий Колмогорова - Смирнова || <code>ks.test</code><ref>Для оценки нормальности вызов выглядит следующим образом: <code>ks.test(x, y = "pnorm")</code>.</ref> || - || - || <code>ksnormTest</code> || - || -|-| style="text-align: left" | Критерий Андерсона - Дарлинга || - || <code>ad.test</code> || - || <code>adTest</code> || - || -|-| style="text-align: left" | Критерий Крамера - фон Мизеса || - || <code>cvm.test</code> || - || <code>cvmTest</code> || - || -|-| style="text-align: left" | Критерий Лиллиефорса || - || <code>lillie.test</code> || - || <code>lillieTest</code> || - || -|-| style="text-align: left" | Критерий <math>\chi^2</math> Пирсона || - || <code>pearson.test</code> || - || <code>pchiTest</code> || - || -|-| style="text-align: left" | Критерий Шапиро - Франчия || - || <code>sf.test</code> || - || <code>sfTest</code> || - || -|-| style="text-align: left" | Критерий Д'Агостино || - || - || <code>agostino.test</code> || <code>dagoTest</code> || - || -|-| style="text-align: left" | Критерий Бонетта – Сайера || - || - || <code>bonett.test</code> || - || - || -|-| style="text-align: left" | Критерий Жарка - Бера || - || - || <code>jarque.test</code> || <code>jarqueberaTest</code> || <code>jarque.bera.test</code> || <code>rjb.test</code>|}

~~====~~ Пакет ~~<code>moments</code> ====~~ ~~В данный пакет входят следующие функции:~~ * <code>agostino.test</code> {{r- ~~критерий Д'Агостино~~* <code>bonett.test</code> - критерий Бонетта – Сайера* <code>jarque.test</code> - критерий Жарка-Бера ~~Данные функции~~ package|fBasics}} содержит также ~~возвращают результат в виде S3-класса - <code>htest</code>.~~ ~~==== Пакет <code>fBasics</code> ====~~ В данном пакете не предлагается никакой оригинальной реализации критериев - код в основном заимствован из пакетов <code>stats</code>, <code>nortest</code>, <code>moments</code>. Данный пакет предлагает альтернативный вывод результатов в виде объекта S4-класса <code>fHTEST</code>, в том время как все предыдущие функции использовали S3-класс <code>htest</code>. ~~Функция~~ функцию <code>normalTest()</code> , которая является «обёрктой» для ряда функций из того же пакета ~~- <code>fBasics</code>~~. ~~Задать необходимый~~ Необходимый критерий можно задать с помощью аргумента <code>method</code>. Доступны следующие критерии:

* <code>sw</code> - критерий Шапиро - Уилка

Пример вызова данной функции:

~~<syntaxhighlight lang~~{{r-code|code=~~"rsplus">~~<nowiki>> normalTest(x, method = "sw")

Title:

Description:

Fri Feb 14 19:59:59 2014 by user:

</~~syntaxhighlight~~nowiki> ~~Помимо функции <code>normalTest()</code> данный пакет включает в себя следующие функции:~~ * <code>shapiroTest</code> - критерий Шапиро - Уилка* <code>ksnormTest</code> - критерий Колмогорова - Смирнова<ref>Данная функция вызывает <code>ks.test(x, "pnorm")</code> для трёх альтернативных гипотез - двусторонней и двух односторонних.</ref>* <code>jarqueberaTest</code> - критерий Жарка-Бера* <code>dagoTest</code> - критерий Д'Агостино* <code>adTest</code> - критерий Андерсона - Дарлинга* <code>cvmTest</code> - критерий Крамера - фон Мизеса* <code>lillieTest</code> - критерий Лиллиефорса* <code>pchiTest</code> - критерий Пирсона* <code>sfTest</code> - критерий Шапиро - Франчия ~~Данные функции также возвращают результат в виде S4-класса - <code>fHTEST</code>.~~ ~~==== Пакет <code>TeachingDemos</code> ====~~ Данные пакет содержит только одну функцию, имеющую отношение к критериям проверки принадлежности распределения нормальному закону - <code>SnowsPenultimateNormalityTest()</code>. Данная функция возвращают результат в виде S3-класса - <code>htest</code>. ~~==== Пакет <code>tseries</code> ====~~ Данный пакет содержит только одну функцию, имеющую отношение к критериям проверки принадлежности распределения нормальному закону - <code>jarque.bera.test</code>, которая является реализацией критерия Жарка-Бера. Данная функция возвращают результат в виде S3-класса - <code>htest</code>.}}

~~====~~ Пакет <code>lawstat</code> ~~====~~содержит также функцию <code>sj.test()</code>, которая является реализацией рабастного критерия нормальности, созданного на основа критерия Шапиро - Уилка.

~~В данный пакет входят следующие функции:~~ * Пакет <code>~~rjb.test~~TeachingDemos</code> ~~- критерий Жарка-Бера~~* содержит функцию <code>~~sj.test~~SnowsPenultimateNormalityTest()</code> ~~- SJ-~~, реализующую неописанный в литературе критерий. Данная функция возвращает только уровень статистической значимости, свидетельствующий об отклонения распределения от нормального закона.

==== Маленькие хитрости ====

С помощью <code>apply</code>-функций можно последовательно применить функцию к вектору, списку или массиву. Прежде чем всего нам необходимо сформировать таблицу данных. С помощью функции <code>replicate()</code> сгенерируем 10 переменных, имеющих стандартное нормальное распределение, которые объединяются в класс <code>data.frame</code>.

~~<syntaxhighlight lang~~{{r-code|code=~~"rsplus">~~<nowiki>> DF <- data.frame(replicate(n = 10, rnorm(n = 100)))</~~syntaxhighlight~~nowiki>}}

Структура сгенерированной таблицы выглядит следующим образом:

~~<syntaxhighlight lang~~{{r-code|code=~~"rsplus">~~<nowiki>> str(DF)

'data.frame': 100 obs. of 10 variables:

$ X1 : num 1.051 1.08 -0.477 -1.396 3.423 ...

$ X9 : num -0.8508 0.4481 -0.2828 -0.5464 0.0605 ...

$ X10: num 1.421 0.408 1.254 -0.956 -1.91 ...

</~~syntaxhighlight~~nowiki>}}

Для решения поставленной задачи можно воспользоваться функцией <code>sapply()</code>. Но прежде, нам необходимо немного отформатировать формат вывода результатов нашей функции: нам нужно извлечь значения критерия и его уровень значимости, т.к. результат функции <code>shapiro.test()</code> содержит также информацию, которая не подлежит включению в итоговую таблицу, например, информация об используемом методе (критерии) и уточнение характера альтернативной гипотезы.Вывод результатов тест Шапиро - Уилка выглядит следующим образом:

~~<syntaxhighlight lang~~{{r-code|code=~~"rsplus">~~<nowiki>> shapiro.test(x)

Shapiro-Wilk normality test

data: x

W = 0.9903, p-value = 0.6882

</~~syntaxhighlight~~nowiki>}}

Структура результата применения функции <code>shapiro.test()</code> представлена ниже:

~~<syntaxhighlight lang~~{{r-code|code=~~"rsplus">~~<nowiki>> str(shapiro.test(x))

List of 4

$ statistic: Named num 0.99

$ data.name: chr "x"

- attr(*, "class")= chr "htest"

</~~syntaxhighlight~~nowiki>}}

Как видим, помимо значений критерия и уровня значимости здесь содержится информация о применяемом методе. Мы можем отфильтровать вывод следующим образом:

~~<syntaxhighlight lang~~{{r-code|code=~~"rsplus">~~<nowiki>> normTest <- function (x) {

+ res <- shapiro.test(x)

+ return(~~list~~c(~~statistic =~~ res$statistic,+ p.value = res$p.value))

+ }

</~~syntaxhighlight~~nowiki>}}

Результат теперь будет выглядеть следующим образом:

~~<syntaxhighlight lang~~{{r-code|code=~~"rsplus">~~<nowiki>> normTest(x)~~$statistic~~ W ~~0.9903~~ $p.value~~[1]~~ 0.9903 0.6882</~~syntaxhighlight~~nowiki>}}

Теперь можно использовать данную функцию при обработке столбцов нашей таблицы.

~~<syntaxhighlight lang~~{{r-code|code=~~"rsplus">~~<nowiki>> t(sapply(DF, normTest)) ~~statistic~~ W p.valueX1 0.9831 0.2301 X2 0.9936 0.9213 X3 0.98 9800 0.1333 X4 0.9829 0.2219 X5 0.9874 0.4625 X6 0.9862 0.3874 X7 0.9839 0.2617 X8 0.9833 0.~~236~~ 2360X9 0.9915 0.7834 X10 0.9808 0.1531 </~~syntaxhighlight~~nowiki>}}

Того же результата можно добиться и с помощью функции <code>lapply()</code><ref>По результатам сравнения производительности, данный вариант оказался чуть быстрее предыдущего.</ref>:

~~<syntaxhighlight lang~~{{r-code|code=~~"rsplus">~~<nowiki>> do.call(rbind, lapply(DF, normTest)) ~~statistic~~ W p.valueX1 0.9831 0.2301 X2 0.9936 0.9213 X3 0.98 9800 0.1333 X4 0.9829 0.2219 X5 0.9874 0.4625 X6 0.9862 0.3874 X7 0.9839 0.2617 X8 0.9833 0.~~236~~ 2360X9 0.9915 0.7834 X10 0.9808 0.1531</~~syntaxhighlight~~nowiki>}} ===== Применение функций к нескольким по группам ===== Добавим к нашей таблице группы испытуемых: {{r-code|code=<nowiki>> DF$GRP <- factor(sample(LETTERS[1:3], size = 100, replace = TRUE))</nowiki>}} Состав групп получился следующим: {{r-code|code=<nowiki>> table(DF$GRP) A B C 38 25 37 </nowiki>}} Рассчитаем значения критерия Шапиро - Уилка для первого столбца для каждоый группы испытуемых: {{r-code|code=<nowiki>> do.call(rbind, tapply(DF$X1, DF$GRP, normTest)) W p.valueA 0.9522 0.13281B 0.9607 0.28697C 0.9410 0.07256</nowiki>}}

=== Графические методы ===

Многие исследователи также используют графические методы для определения степени отклонения распределения от нормального закона. В R реализована возможность построения Q-Q ~~и P-P~~ графиков, гистограмм и кривых распределения ~~плотности вероятностей~~плотностей вероятности.

==== ~~Пакет <code>stats</code>~~ Гистограмма ====

~~Построение Q–Q plot~~ Гистограмма представляет собой графическое изображение зависимости частоты попадания элементов выборки от соответствующего интервала группировки. Построить гистограмму в R можно с помощью ~~пакета <code>stats</code> выглядит следующим образом~~следующей команды:

~~<syntaxhighlight lang~~{{r-code|code=~~"rsplus">~~<nowiki> ~~qqnorm(x)~~> ~~qqline~~hist(x)</~~syntaxhighlight~~nowiki>~~[[Файл:Stats-qqnorm.svg|400px|центр]]~~}}

~~==== Пакет <code>QTLRel</code> ====~~[[Файл:Graphics-hist.svg|400px|центр]]

~~Построение Q–Q plot с помощью пакета <code>QTLRel</code> выглядит следующим образом~~На гистограмме изображены абсолютные частоты. Также можно построить гистограмму, отражающую плотности вероятностей:

~~<syntaxhighlight lang~~{{r-code|code=~~"rsplus">~~<nowiki> ~~qqPlot~~> hist(x, x freq = ~~"norm"~~FALSE)</~~syntaxhighlight~~nowiki>~~[[Файл:Qtlrel-qqplot.svg|400px|центр]]~~}}

~~==== Пакет <code>car</code> ====~~[[Файл:Graphics-hist-probs.svg|400px|центр]]

~~Альтернативный вариант реализован в функции <code>qqPlot()</code> из пакета <code>car</code>:~~==== График плотностей вероятности ====

~~<syntaxhighlight lang~~=~~"rsplus">> qqPlot(x, distribution~~ = ~~"norm")~~=== Пакет <code>stats</~~syntaxhighlight~~code>~~[[Файл:Car-qqplot.svg|400px|центр]]~~=====

{{r-code|code=~~=== Пакет~~ <~~code~~nowiki>~~e1071~~> plot(density(x))</~~code~~nowiki> ~~====~~}}

~~Построение P-P plot можно осуществить с помощью функции <code>probplot</code> из пакета <code>e1071</code>~~[[Файл:Stats-density.svg|400px|центр]]

~~<syntaxhighlight lang~~=~~"rsplus">> probplot(x, qdist~~ = ~~qnorm)~~=== Пакет <code>car</~~syntaxhighlight~~code>~~[[Файл:E1071-probplot.svg|400px|центр]]~~=====

{{r-code|code=~~=== Пакет~~ <~~code~~nowiki>~~gamlss~~> densityPlot(x)</~~code~~nowiki> ~~====~~}}

~~Ещё один интересный способ графического анализа представлен функцией <code>histDist</code> из пакета <code>gamlss</code>~~[[Файл:Car-densityPlot.svg|400px|центр]]

==== Гистограммы с наложением графика плотностей вероятнотси ==== ===== Пакет <~~syntaxhighlight lang~~code>stats</code> ===== {{r-code|code=<nowiki>> hist(x, freq = FALSE)> lines(density(x))</nowiki>}} [[Файл:Stats-hist-density.svg|400px|центр]] Теперь наложим на наш график кривую плотностей вероятности для нормального распределения: {{r-code|code=<nowiki>> xfit <- seq(min(x), max(x), length = 100) # Координаты по оси X> yfit <- dnorm(xfit, mean = mean(x), sd = sd(x)) # Вычисление координат по оси Y> hist(x, freq = FALSE)> lines(density(x), col ="~~rsplus~~red") # Накладываем кривую плотностей вероятности>lines(xfit, yfit, col = "blue") # Накладываем «нормальную» кривую</nowiki>}} [[Файл:Stats-density-compare.svg|400px|центр]] ===== Пакет <code>gamlss</code> ===== Более простой способ сравнение графиков плотностей вероятности представлен в функции <code>histDist</code> из пакета <code>gamlss</code>: {{r-code|code=<nowiki>> histDist(x, family = "NO", density = TRUE)

Family: c("NO", "Normal")

Mu Coefficients:

[1] -0.~~2273~~0462

Sigma Coefficients:

[1] 0.~~09813~~023

Degrees of Freedom for the fit: 2 Residual Deg. of Freedom 98 998 Global Deviance: ~~303.414~~ 2884 AIC: ~~307.414~~ 2888 SBC: ~~312.624~~ 2898</~~syntaxhighlight~~nowiki>}} [[Файл:~~gamlss~~Gamlss-histdist.svg|400px|центр]]

С помощью аргумента <code>family</code> можно задать семейство распределений для подгонки и сравнения<ref>Более подробную информацию о доступных семействах распределений можно получить с помощью команды <code>help("gamlss.family")</code>.</ref>.

==== Q-Q график ====

Q-Q график (Q - квантиль) — это график, на котором квантили из двух распределений расположены относительно друг друга. Чем ближе точки на графике к диагональной прямой, тем ближе распределение исследуемой переменной к нормальному закону.

Построение квантильных графиков в R реализовано в нескольких пакетах.

===== Пакет <code>stats</code> =====

Построение Q–Q plot с помощью пакета <code>stats</code> выглядит следующим образом:

{{r-code|code=

<nowiki>> qqnorm(x)

> qqline(x)</nowiki>

}}

[[Файл:Stats-qqnorm.svg|400px|центр]]

===== Пакет <code>QTLRel</code> =====

Построение Q–Q plot с помощью пакета <code>QTLRel</code> выглядит следующим образом:

{{r-code|code=

<nowiki>> qqPlot(x, x = "norm")</nowiki>

}}

[[Файл:Qtlrel-qqplot.svg|400px|центр]]

===== Пакет <code>car</code> =====

Альтернативный вариант реализован в функции <code>qqPlot()</code> из пакета <code>car</code>:

{{r-code|code=

<nowiki>> qqPlot(x, distribution = "norm")</nowiki>

}}

[[Файл:Car-qqPlot.svg|400px|центр]]

===== Пакет <code>e1071</code> =====

Построение Q-Q plot можно осуществить с помощью функции <code>probplot</code> из пакета <code>e1071</code>:

{{r-code|code=

<nowiki>> probplot(x, qdist = qnorm)</nowiki>

}}

[[Файл:E1071-probplot.svg|400px|центр]]

== Многомерное нормальное распределение ==

Перед началом обзора функций, реализующий критерии проверки многомерной нормальности, сгенерируем массив данных. Сделать это можно при помощью следующих функций

* <code>mvrnorm</code> из пакета <code>MASS</code>

* <code>rmvnorm</code> из пакета <code>mvtnorm</code>

* <code>rmnorm</code> из пакета <code>mnormt</code>

Вот пример кода, генерирующего массив данных, имеющих многомерное нормальное распределение:

{{r-code|code=

> means <- c(0, 0, 0, 0) # средние для переменных

> sigmas <- diag(length(means)) # ковариационная матрица

> mx <- rmvnorm(100, mean = means, sigma = sigmas)

}}

Пакет {{r-package|mvnormtest}} реализует модификацию критерия Шапиро - Уилка для многомерных данных - функция <code>mshapiro.test()</code><ref>В качестве аргумента необходимо передать транспонированную матрицу: <code>mshapiro.test(t(mx))</code>.</ref>.

Пакет {{r-package|ICS}} предлагает реализацию критериев эксцесса и асимметрии для многомерных данных: <code>mvnorm.kur.test()</code>, <code>mvnorm.skew.test()</code>.

Пакет {{r-package|energy}} реализует E-статистики для сравнения распределений. Критерия для проверки гипотезы о соответствия распределения многомерной переменной многомерному нормальному распределению предлагается функция <code>mvnorm.etest()</code><ref>Для вычисления уровня значимости критерия используется метод бутстрепа (bootstrap). Число итераций для бутстрепа можно задать с помощью аргумента <code>R</code>.</ref>.

== Ссылки ==

* Juergen Gross and bug fixes by Uwe Ligges (2012). nortest: Tests for Normality. R package version 1.0-2.

*: http://CRAN.R-project.org/package=nortest

* Lukasz Komsta and Frederick Novomestky (2012). moments: Moments, cumulants, skewness, kurtosis and related tests. R package version 0.13.

*: http://CRAN.R-project.org/package=moments

* Diethelm Wuertz, Rmetrics core team members, uses code builtin from the following R contributed packages: gmm from Pierre Chauss, gld from Robert King, gss from Chong Gu, nortest from Juergen Gross, HyperbolicDist from David Scott, sandwich from Thomas Lumley, Achim Zeileis, fortran/C code from Kersti Aas and akima from Albrecht Gebhardt (2013). fBasics: Rmetrics - Markets and Basic Statistics. R package version 3010.86.

*: http://CRAN.R-project.org/package=fBasics

* Adrian Trapletti and Kurt Hornik (2013). tseries: Time Series Analysis and Computational Finance. R package version 0.10-32.

*: http://CRAN.R-project.org/package=tseries

* Joseph L. Gastwirth; Yulia R. Gel <ygl@math.uwaterloo.ca>; W. L. Wallace Hui <wlwhui@uwaterloo.ca>; Vyacheslav Lyubchich <vlyubchich@uwaterloo.ca>; Weiwen Miao <miao@macalester.edu>; Kimihiro Noguchi <kinoguchi@ucdavis.edu> (2013). lawstat: An R package for biostatistics, public policy, and law. R package version 2.4.1.

*: http://CRAN.R-project.org/package=lawstat

* John Fox and Sanford Weisberg (2013). car: Companion to Applied Regression. R package version 2.0-19/r346.

*: http://R-Forge.R-project.org/projects/car/

* Mikis Stasinopoulos, Bob Rigby with contributions from Calliope Akantziliotou and Vlasios Voudouris (2014). gamlss: Generalised Additive Models for Location Scale and Shape. R package version 4.2-7.

*: http://CRAN.R-project.org/package=gamlss

* Riyan Cheng (2013). QTLRel: Tools for mapping of quantitative traits of genetically related individuals and calculating identity coefficients from a pedigree. R package version 0.2-14.

*: http://CRAN.R-project.org/package=QTLRel

* David Meyer, Evgenia Dimitriadou, Kurt Hornik, Andreas Weingessel and Friedrich Leisch (2014). e1071: Misc Functions of the Department of Statistics (e1071), TU Wien. R package version 1.6-2.

*: http://CRAN.R-project.org/package=e1071

== Примечания ==

← Предыдущая правка

Артём Клевцов

Бюрократ, ревизор, администратор

3482

правки

Изменения

R:Статистическая проверка принадлежности нормальному распределения

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Психодиагностика

Язык и среда R

Инструменты