Вопросы идентификации распределения выборочных данных при ограничении нижней границы рассеивания наблюдаемых значений

Обложка

Цитировать

Полный текст

Аннотация

Статистический анализ выборочных данных является широко распространенным инструментом исследований в различных отраслях научных знаний и в их приложениях, в том числе в исследовании экономических процессов и критических состояний, но в то же время вызывает ряд вопросов в связи с выбором теоретического закона распределения в генеральной совокупности, включающей исследуемую выборку данных. Последнее требуется для достоверного прогнозирования рисков и надежности, поскольку в этих задачах требуется прогнозировать достаточно малые или, наоборот, близкие к единице вероятности. Для исследования вопросов идентификации выборочных данных численным путем разработано программное обеспечение, включающее генерирование псевдослучайных выборок, подчиняющихся распределению Вейбулла с заданной нижней границей рассеивания, с последующим определением принадлежности как к исходному распределению, так и к нормальному распределению. Проведен численный эксперимент с широким интервалом варьирования параметров рассматриваемых распределений и с использованием критерия согласия Пирсона для идентификации распределения выборочных данных. Анализ результатов численного моделирования при широком диапазоне варьирования объема выборочных данных и их параметров показал высокую вероятность ложной идентификации нормального распределения выборочных данных, в то время как на самом деле они соответствуют распределению Вейбулла с фиксированной нижней границей рассеивания.

Полный текст

Введение

Актуальность рассматриваемой темы обусловлена развитием технической базы информационных технологий, стимулирующих регулярный рост числа прикладных исследований, в которых авторы, пользуясь возможностями современных специализированных программных средств, ограничиваются большей частью формальной проверкой гипотезы нормальности распределения. Получив высокие значения вероятности соответствия нормальному закону в генеральной совокупности данных, исследователи зачастую не задумываются о том, что на самом деле с еще большей достоверностью генеральная совокупность исследуемых данных может подчиняться другому закону распределения, например, трехпараметрическому распределению Вейбулла с заданной нижней границей рассеивания.

Остановимся на причинах ограничивающих исследователей в выборе гипотез о законе распределения генеральной совокупности, и как следствие безоговорочно отдающих предпочтение нормальному распределению. Во-первых, известная Центральная Предельная Теорема Теории Вероятностей [1], формулировка которой создает впечатление об аксиоматическом превосходстве гипотезы нормального распределения экспериментальных данных. Во-вторых, высокие значения доверительных вероятностей, получаемые с использованием известных критериев согласия [2].  Кроме того, дополнительную уверенность в универсальности нормального распределения создает известное свойство этого закона, в соответствии с которым сумма нормально распределенных случайных величин также подчиняется нормальному закону [3].

С другой стороны, в диссонансе с предыдущим выступают соображения, вызываемые известными свойствами нормального распределения, такими как симметрия и бесконечный интервал возможных значений, которые обычно не наблюдаются в реальных выборочных данных. Возникающие на этой почве недоумения обычно рассеиваются апелляцией к тезису об ограниченном объеме любой выборки по сравнению с неограниченным объемом ее генеральной совокупности.

Существуют в какой-то мере технические проблемы идентификации распределения генеральной совокупности по имеющимся выборочным данным. У этой проблемы два аспекта, во-первых, выбор инструмента идентификации среди множества критериев согласия. Здесь можно воспользоваться рекомендациями, которые представлены в работах [4; 5].

Многочисленные практические руководства и рекомендации [4–6], а с другой стороны, наличие разнообразных критериев согласия и доступных программных средств для их применения. Такая ситуация чисто психологически не стимулирует исследователей заниматься их детальным изучением и освоением различных критериев согласия, выбрав по старинке один из популярных критериев проверки нормальности распределения и здесь на первом месте традиционно выступает критерий Пирсона [7].

Если реальные выборочные данные при использовании одного из критериев согласия показывают высокую вероятность соответствия нормальному распределению, то надо понимать, что это в некотором смысле интегральная оценка. В то время как при оценке рисков или надежности в прикладных задачах используются "хвосты" распределений, соответствующие вероятностям меньше 0,05 (например, вероятности убытков и разрушений) или превышающие 0,95 (например, вероятности выполнения плановых заданий и достижения нормативных значений).  Но именно здесь особенно важно не ошибиться с выбором теоретического распределения, которому подчиняются выборочные данные.

 

Постановка задачи

На основе результатов применения разработанной численной процедуры статистического имитационного моделирования рассматриваются условия, при которых выборка из генеральной совокупности с явным заданием нижней границы рассеивания описываемая распределением Вейбулла уверенно идентифицируется критерием Пирсона как выборка из нормального распределения. Ложная идентификация нормального распределения при его последующем применении приводит к существенным ошибкам в прогнозировании рисков надежности функционирования систем различной природы и назначения.

 

Ход исследования

Обратимся в качестве возможной альтернативы нормальному распределению к распределению Вейбулла с заданной нижней границей рассеивания, которое в математическом плане является моделью распределения экстремальных значений, построенной на основе так называемой "теории слабого звена" [8].

Можно привести многочисленные примеры распределений выборочных данных, в которых нижняя граница рассеивания имеет физические ограничения. Например, в механике сплошных сред: предел прочности материалов при различных видах деформирования. В энергетике – мощность источников энергии различной природы (тепловые электростанции, электростанции с возобновляемыми источниками энергии). В экономике: себестоимость продукции машиностроения в условиях ее гарантированного спроса, доходность высоколиквидных финансовых обязательств. Распределение Вейбулла применяется для описания ресурса объектов машиностроения, для характеристик внешних воздействий, таких как сила ветра, интенсивность дождя, в биологии – время прорастания семян, в промышленности – продолжительность простоев и во многих других задачах.

Интегральная функция распределения Вейбулла задается выражением [8]

,                                                    (1)

где u – нижняя граница рассевания наблюдаемых значений, a – параметр формы, – масштабный фактор.

 

Математическое ожидание и среднее квадратическое отклонение распределения Вейбулла находятся по формулам

,                               (2, 3)

В формулах 2 и 3 используется известная неаналитическая гамма-функция Даниэля Бернулли [10]

                                                                      (4)

Численные значений гамма-функции можно получить из таблиц [9] или воспользовавшись каким-либо программным обеспечением, например, встроенной функцией ГАММА(х) в Excel [11].

Рассмотрим иллюстрацию распределения Вейбулла в сопоставлении с соответствующими данными нормального распределения, изображенную на рисунках 1 и 2. Здесь представлены функции распределения Вейбулла с фиксированными параметрами  при двух вариантах параметра формы   и согласованные функции нормального распределения, т. е. имеющие такие же математическое отклонение и среднее квадратическое отклонение.

 

 

Рисунок 1 –Согласование распределений:

Figure 1 – Alignment of distributions:

 

 

Рисунок 2 – Согласование распределений:

Figure 2 – Alignment of distributions:

 

Как видно из рисунков 1 и 2, параметр  кардинально влияет на вид функции распределения Вейбулла и в любом случае наблюдается видимое отклонение от согласованной функции нормального распределения, не говоря о том, что функция распределения Вейбулла в отличие от нормального распределения ограничена снизу значением параметра .

Рассмотрим имитационное моделирование выборки из генеральной совокупности, подчиняющейся распределению Вейбулла с заданными параметрами, описываемого выражением (1). Составив обратную функцию распределения Вейбулла и, подставляя в нее в качестве аргументов случайные числа u(i) распределенные по закону равномерной плотности, получим формулу для генерирования случайной выборки из распределения Вейбулла в виде

 

 

(5)

 

 

Зная значения параметров, можно определить математическое ожидание и среднее квадратическое отклонение генеральной совокупности распределения Вейбулла по формулам (2, 3).

Рассмотрим характеристики численного эксперимента: Параметры распределения Вейбулла выбраны следующим образом u=64,00 и Θ =40,00. Параметр формы распределения α принимает фиксированные значения, указанные в таблице 1. Объем генерируемых выборок выбирался в соответствии с таблицей 2.

 

Таблица 1 – Значения параметра α

Table 1 – Values of the parameter α

 

i

1

2

3

4

5

6

7

8

α(i)

0,20

0,40

0,60

0,80

1,00

2,00

4,00

6,00

 

Таблица 2 – Объем выборочных данных

Table 2 – The amount of sample data

 

i

1

2

3

4

5

6

7

8

9

10

11

NV(i)

10

20

40

100

200

1000

2000

5000

10000

20000

50000

 

Число выборок в очередной серии численного эксперимента NN=20. Всего выполнено 1760 реализаций выборок из распределения Вейбулла. В таблице 3 приведены численные значения теоретических значений математического ожидания моделируемого распределения Вейбулла.

 

Таблица 3 – Характеристики сгенерированных данных

Table 3 – Characteristics of the generated data

 

α

0,20

0,40

0,60

0,80

1,00

2,00

4,00

6,00

mx

4864,00

196,93

124,20

117,32

104,00

99,45

100,26

101,10

sx

76046,3

417,527

105,765

49,7427

40,00

18,53

10,172

7,2157

 

Рассмотрим типовой фрагмент полученных данных, представленный в таблице 4. Эти данные соответствуют размеру выборки N=200, при числе разрядов для группирования k=20 и числе выборок в серии NN=20. Параметр формы распределения имеет значение α=0,20. Из приведенных данных видно, что исходное распределение Вейбулла идентифицируется по критерию Пирсона с высокими вероятностями Р(В-В) равными 1,00000 и только в одном случае эта вероятность снижается до 0,99989, оставаясь весьма высокой, что и должно быть. Вероятности идентификации нормального распределения Р(Н-В) тех же данных к удивлению, составляют 0,98230 – 0,99944 и только в некоторых случаях опускаются до, казалось бы, очевидных значений 0,00000 – 0,00480.

Для обозрения всех полученных результатов составлена таблица 5, в которой приведена группировка по вероятностям идентификации соответствующего распределения в интервалах вероятностей (Р(i); P(i+1)) при i=1,…,10. Здесь числа наблюдений m(i),  n(i) в i-м интервале соответственно для распределения Вейбулла и нормального распределения, Р*(В-В)=m(i)/N, Р*(Н-В)=n(i)/N – накопленные частоты.

 

Таблица 4 – Фрагмент смоделированных реализаций

Table 4 – Fragment of simulated implementations

 

i

Р(В-В)

Р(Н-В)

i

Р(В-В)

Р(Н-В)

92

1,00000

0,99944

96

1,00000

0,99772

93

1,00000

0,00000

97

0,99989

0,99940

94

1,00000

0,98230

98

1,00000

0,99943

95

1,00000

0,00000

99

1,00000

0,00480

96

1,00000

0,99772

100

1,00000

0,99945

 

Таблица 5 – Сводные данные численного эксперимента

Table 5 – Summary data of the numerical experiment

 

i

Р(i)

Р(i+1)

m(i)

n(i)

Р*(В-В)

Р*(Н-В)

1

0,90

1,00

1746

900

0,99205

0,51136

2

0,80

0,90

3

26

0,00170

0,01477

3

0,70

0,80

2

9

0,00114

0,00511

4

0,60

0,70

2

17

0,00114

0,00966

5

0,50

0,60

2

7

0,00114

0,00398

6

0,40

0,50

0

11

0,00000

0,00625

7

0,30

0,40

0

9

0,00000

0,00511

8

0,20

0,30

2

6

0,00114

0,00341

9

0,10

0,20

0

5

0,00000

0,00284

10

0,00

0,10

3

770

0,00170

0,43750

 

Из таблицы 5 видно, что более половины данных регистрируются как нормальное распределение с вероятностью, превышающей 0,90 в условиях, когда исходное распределение представляет собой распределение Вейбулла с заданной нижней границей рассеивания.

 

Полученные результаты и выводы

  1. Сравнительный анализ результатов выполненных численных экспериментов по диагностике выборочного распределения с использованием критерия Пирсона наглядно показывает, что исходные данные, подчиняющиеся по своей природе распределению Вейбулла с явной нижней границей рассеивания, безусловно, идентифицируются с высокой доверительной вероятностью независимо от технических параметров процедуры идентификации в широком диапазоне изменения параметров исходного распределения Вейбулла. при этом в половине случаев те же данные могут идентифицироваться как нормальное распределение с весьма высокой доверительной вероятностью.
  2. Наблюдаемая особенность идентификации может приводить к ошибочным выводам о нормальности распределения выборочных данных, если формально подходить к использованию критерия Пирсона, ориентируясь только на подтверждаемые высокие значения доверительных вероятностей. Рассмотрение таких характеристик формы функции распределения, как эксцесс и асимметрия (скошенность) в ряде случаев дает надежные основания для отказа от гипотезы нормального распределения генеральной совокупности в пользу выбора распределения Вейбулла в качестве закона распределения рассматриваемых статистических данных. Кроме того, выбор в пользу распределения Вейбулла во многих случаях можно сделать априорно на основе физических соображений.
  3. Высокие доверительные вероятности соответствия нормальному распределению являются недостаточным основанием для определения закона распределения рассматриваемых данных.
×

Об авторах

Вячеслав Митрофанович Дуплякин

Самарский национальный исследовательский университет имени академика С.П. Королева

Автор, ответственный за переписку.
Email: v.duplyakin@gmail.com
ORCID iD: 0000-0002-7433-3188

доктор экономических наук, профессор кафедры экономики

Россия, 443086, Российская Федерация, г. Самара, Московское шоссе, 34

Список литературы

  1. 1. Прохоров А.В. Моментов метод // Математическая энциклопедия / гл. ред. И.М. Виноградов. Москва: Сов. энциклопедия, 1982. Т. 3. 1184 с. URL: https://www.nehudlit.ru/books/matematicheskaya-entsiklopediya-tom-3.html.
  2. 2. Зыков С.В., Незнанов А.А., Максименкова О.В. Критерии отклонения распределения случайных величин от нормального в математическом обеспечении программных систем поддержки измерений в образовании // Программные системы: теория и приложения. 2018. 9:4(39), C. 199–218. DOI: http://doi.org/10.25209/2079-3316-2018-9-4-199-218.
  3. 3. Дёмин С.Е., Дёмина Е.Л. Теория вероятностей. Ч. 3. Системы и функции случайных величин. Случайные процессы: учеб.-метод. пособие / Нижнетагил. технол. ин-т (фил.). Нижний Тагил: НТИ (ф) УрФУ, 2017. 295 с. URL: https://elar.urfu.ru/bitstream/10995/54458/1/978-5-9544-0081-6_2017.pdf.
  4. 4. Александровская Л.Н., Кириллин А.В. Рекомендации по применению ряда критериев проверки отклонения распределения вероятностей от нормального закона в практике инженерного статистического анализа // Известия Самарского научного центра РАН, серия «Авиационная и ракетно-космическая техника». 2017. Т. 19, № 1, С. 82–90. URL: http://www.ssc.smr.ru/media/journals/izvestia/2017/
  5. 2017_1_82_90.pdf; https://www.elibrary.ru/item.asp?id=29409494.
  6. 5. Лемешко Б.Ю. Критерии проверки отклонения распределения от нормального закона. Руководство по применению. Москва: НИЦ ИНФРА-М, 2015. 160 с. URL: https://www.elibrary.ru/item.asp?id=23743254.
  7. 6. Дуплякин В.М. Особенности идентификации нормального закона распределения // Вестник Самарского университета. Экономика и управление. 2020. Том 11, № 3, C. 176–183. DOI: http://doi.org/10.18287/2542-0461-2020-11-3-176-183.
  8. 7. Вентцель Е.С. Теория вероятностей. 11-е изд. стер. Москва: КНОРУС, 2010. 664 с.
  9. 8. Вейбулл В. Усталостные испытания и анализ их результатов. Москва: Машиностроение, 1964. 276 c.
  10. 9. Митропольский А.К. Техника статистических вычислений. Москва: Главная редакция физико-математической литературы изд-ва «Наука», 1971. 570 с.
  11. 10. Янке Е., Эмде Ф., Леш Ф. Специальные функции. Формулы, графики, таблицы / пер. с нем. 2 изд. Москва: Наука, 1968, 344 с. URL: https://bookree.org/reader?file=446837&pg=1.
  12. 11. URL: https://msoffice-prowork.com/ref/excel/excelfunc/statistical/gamma.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Вестник Самарского университета. Экономика и управление, 2021

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution-ShareAlike 4.0 International License.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах