Формулирование и проверка гипотез: уровень статистической значимости и P-value

Порой возникает ситуация, когда нам необходимо ответить на вопрос о генеральной совокупности, понять, соответствует ли наблюдаемая выборка нашему предположению о ней или, скорее, нет. Исходя из этого, мы формулируем гипотезу, т.е. предположение, которое требует подтверждения и проверки фактами. У гипотезы есть два состояния, она может быть только подтверждена или опровергнута. Если данные не противоречат гипотезе, тогда мы её принимаем и напротив, если мы приходим к выводу, что вероятность получить такие данные очень низка, появляется основание отбросить эту гипотезу. Данную задачу можно решить с помощью статистического теста, чтобы эту вероятность найти. Проверка гипотез начинается с формулировки нулевой гипотезы или H0. В H0 мы всегда предполагаем равенство. Если мы исследуем вопрос о равенстве некоторой величины «X» какому-то числу «Y» то нулевая гипотеза будет звучать так: «Да, равна» или «X == Y» . Если выясняем, есть ли разница между совокупностями, то нулевая гипотеза будет такая: «Разницы нет, исследуемые параметры равны». Исходя из H0 формулируется альтернативная гипотеза или H1. Это утверждение, которое принимается верным, если отбрасывается H0. Оно может звучать так: «среднее генеральной совокупности не равно
X» или «X != Y». Такая альтернативная гипотеза называется двусторонней, потому что есть возможное отклонение и в большую, и в меньшую стороны. Другой вариант H1 : «среднее генеральной совокупности больше, чем X». В этом случае альтернативная гипотеза называется односторонней, поскольку нас интересует возможное отклонение только в одну сторону.

Когда мы проводим статистический тест, одной из задач является определение, следует ли отклонить нулевую гипотезу H0 и принять альтернативную гипотезу H1 или нет. Мы принимаем это решение на основе того, насколько вероятно получить наблюдаемое значение в выборке, если предположить, что нулевая гипотеза верна. Уровень стат. значимости α (alpha) указывает на то, какую долю площади под кривой распределения вероятности мы отсекаем и считаем слишком маловероятной. Если значение слишком далеко от среднего (или центра) этого распределения, так далеко, что вероятность попасть в эту область становится меньше α, то мы отвергаем нулевую гипотезу H0. Вероятность попасть в тот или иной интервал на графике равна площади под этой частью кривой распределения. В итоге уровень значимости α определяет, какую часть распределения мы считаем слишком маловероятной для того, чтобы принять нулевую гипотезу H0, и насколько наблюдаемое значение должно быть "выдающимся" чтобы отклонить нулевую гипотезу H0. P-value (p-значение): Это численная оценка того, насколько результаты эксперимента или исследования соответствуют нашему уровню статистической значимости. Если p-value меньше или равно уровню значимости α, то мы считаем результаты статистически значимыми. Иными словами, p-value показывает вероятность, что с учётом случайной модели могут произойти настолько же предельные результаты, что и наблюдаемые. p-value лучше рассмотреть на двух крайностях, где p-value равно 100% и 0%. Если p-value равно 0% это указывает на низкую вероятность, если же p-value равно 100% это значит, что результаты эксперимента не показывают статистической значимости или различий между группами. Любые наблюдаемые значения при p-value равным 100% можно объяснить случайностью. Пример: Мы исследуем новый дизайн сайта и хотим проверить, стали ли пользователи делать больше покупок или нет. Мы устанавливаем уровень значимости α == 0.05 (используемые значения в основном это 1% и 5%). Проведя исследование, мы находим p-value равное 0.03. Это меньше α, поэтому мы можем заключить, что новый дизайн сайта статистически значимо помогает пользователям делать больше покупок, так как вероятность, что с учётом случайной модели могут произойти настолько же предельные результаты, что и наблюдаемые, составляет 3%. Таким образом, уровень статистической значимости и p-value помогают исследовать данные и делать выводы о том, действительно ли различия между группами или явления статистически важны или могут быть объяснены случайностью. Ещё один пример: у нас есть генеральная совокупность, которая включает n количество пользователей, допустим, какой-то видео-игры. Мы берём выборку, равную 100 пользователям, и по этой выборке хотим сделать оценку генеральной совокупности. Сформулируем H0 средний возраст генеральной совокупности равен 14 лет. Как альтернативную H1 возьмём средний возраст пользователей генеральной совокупности больше 14 лет (гипотеза односторонняя, поскольку нас интересует отклонение только в одну сторону). В эксперименте участвовало 100 пользователей, средний возраст составил 15 лет, при уровне стат. значимости в 5%, p-value равно 0.2% в итоге, нулевую гипотезу (H0) мы отвергаем, т.к. p-value < α и вероятность, что мы можем получить настолько же предельные результаты, что и наблюдаемые составляет 0.2%. Однако стоит помнить, что P-value не измеряет вероятность, что изучаемая гипотеза является истинной. Не стоит базироваться только на том, переходит p-value определённый порог или нет. В следующем сообщении будет приведён пример применения t-test на Python.

t.me

Data to Decisions

Machine Learning / Deep Learning / Mathematical analysis / Statistics