Назад
54

Проверка статистических гипотез

54

Введение

Пусть мы исследуем данные о случайной величине, например, о росте людей. и хотим узнать X̂ — средний рост людей во всем мире. Множество всех людей это генеральная совокупность. Давайте сделаем предположение, что средний рост людей в мире — 165 см.

Очевидно, что измерить рост всех людей в мире сложно, поэтому мы измерим небольшое количество людей и попробуем на основании этого сделать вывод. Эти люди будут выборочной совокупностью (выборкой). Очень важно, чтобы наша выборка была репрезентативной, то есть ее характеристики были такие же как и у генеральной совокупности. Например, если в нашей выборке будет 100 мужчин и 20 женщин, то она уже не репрезентативная (в реальности женщин ~53%).

Чем более репрезентативна выборка, тем более честные результаты получим. Репрезентативность это субъективное понятие и никто не сможет вам сказать, сколько характеристик должно совпадать в подвыборке и генеральной совокупности. Обычно, чем больше признаков, тем лучше. Но не стоит просто накидывать рандомные характеристики. Выбирайте их с умом, с привязкой к предметной области. Например, в нашем случае, выборка станет более репрезентативной, если мы учтем национальность и возраст. Но если мы начнем учитывать количество братьев у человека и наличие домашнего животного, то особой выгоды мы не получим, а на формирование выборки у нас уйдет больше времени.

Итак, мы отобрали репрезентативную выборку людей, посчитали их средний рост — μ. Кажется, все — если μ = 165, то мы правы, если нет, то ошиблись. На самом деле, нет! Вдруг получилось так, что нам попалось больше низких людей, чем есть на самом деле и μ = 164.9? Любое утверждение о свойствах распределения в генеральной совокупности, как и утверждение о том, что  = 165 — это статистическая гипотеза.

Гипотеза которую мы проверяем обозначается как H0 (нулевая гипотеза). В то же время, всегда есть альтернативная гипотеза H1, которая противоречит H0. В нашем случае: 

H0: X̂ = 165
H1: X̂ ≠ 165

Для проверки гипотезы используют статистические критерии, позволяющие принять или опровергнуть H0. По сути, статистический критерий это функция от выборки, которая оценивает насколько эмпирические (те, которые наблюдаем) данные отличаются от гипотетических (те, которые мы предположили).

Любые критерии не могут однозначно ответить на вопрос верна ли H0, но они могут сказать насколько статистически значимо наше утверждение.

Статистическая значимость выражается числом — p-value. P-value это вероятность получить такие или бóльшие отличия в выборке при условии, что верна H0. В нашем случае, p-value это вероятность существования выборки, в которой среднее либо равно μ, либо отличается от 165 сильнее чем μ. 
Поэтому, ученые обычно говорят “мы опровергли нулевую гипотезу с p-value = 0.05”.

Также, P-value это вероятность ошибки первого рода. Вероятность ошибки второго рода обозначается β. Сама по себе β не особо интересна, но вот 1-β называется мощностью критерия.

Гипотезы бывают односторонние и двухсторонние. Двухсторонние гипотезы это те, в которых в H0 используется равенство. Односторонние — в которых в H0 неравенство. У нас двухсторонняя гипотеза, так как мы предполагаем, что X̂ = 165. 

А почему их вообще разделяют? Потому что в двухсторонних гипотезах используется вероятность отклониться от искомого значения как влево, так и в право. А в односторонних только в одну сторону: влево ИЛИ вправо.

Перед проведением экспериментов всегда выбирается критическое значение α и если p-value < α, то мы отвергаем H0. Чаще всего берут α =0.05. Другими словами, если вероятность получить такие или более сильные различия мала, то и H0, скорее всего, ложная (при условии, что выборка репрезентативна). Если же p-value > α, то мы уже не можем опровергнуть H0.

Итак, если мы хотим проверить гипотезу о распределении какой-либо случайной величины в генеральной совокупности, то мы:

  1. Формулируем H0 и H1.
  2. Берем репрезентативную выборку из генеральной совокупности.
  3. Выбираем критическое значение α.
  4. Применяем статистический критерий и получаем p-value.
  5. Сравниваем α и p-value. Если p-value < α , значит отвергаем H0.

В следующий раз, мы расскажем как проверять гипотезы о среднем и научим отвечать на такие вопросы:

  1. Действительно ли среднее генеральной совокупности равно заданному числу?
  2. Есть ли разница между средними двух выборок?

Телеграм-канал

DeepSchool

Короткие посты по теории ML/DL, полезные
библиотеки и фреймворки, вопросы с собеседований
и советы, которые помогут в работе

Открыть Телеграм

Увидели ошибку?

Напишите нам в Telegram!