Когда мы проводим статистический тест, одной из задач является определение, следует ли отклонить нулевую гипотезу H0 и принять альтернативную гипотезу H1 или нет. Мы принимаем это решение на основе того, насколько вероятно получить наблюдаемое значение в выборке, если предположить, что нулевая гипотеза верна. Уровень стат. значимости α (alpha) указывает на то, какую долю площади под кривой распределения вероятности мы отсекаем и считаем слишком маловероятной. Если значение слишком далеко от среднего (или центра) этого распределения, так далеко, что вероятность попасть в эту область становится меньше α, то мы отвергаем нулевую гипотезу H0. Вероятность попасть в тот или иной интервал на графике равна площади под этой частью кривой распределения. В итоге уровень значимости α определяет, какую часть распределения мы считаем слишком маловероятной для того, чтобы принять нулевую гипотезу H0, и насколько наблюдаемое значение должно быть "выдающимся" чтобы отклонить нулевую гипотезу H0. P-value (p-значение): Это численная оценка того, насколько результаты эксперимента или исследования соответствуют нашему уровню статистической значимости. Если p-value меньше или равно уровню значимости α, то мы считаем результаты статистически значимыми. Иными словами, p-value показывает вероятность, что с учётом случайной модели могут произойти настолько же предельные результаты, что и наблюдаемые. p-value лучше рассмотреть на двух крайностях, где p-value равно 100% и 0%. Если p-value равно 0% это указывает на низкую вероятность, если же p-value равно 100% это значит, что результаты эксперимента не показывают статистической значимости или различий между группами. Любые наблюдаемые значения при p-value равным 100% можно объяснить случайностью. Пример: Мы исследуем новый дизайн сайта и хотим проверить, стали ли пользователи делать больше покупок или нет. Мы устанавливаем уровень значимости α == 0.05 (используемые значения в основном это 1% и 5%). Проведя исследование, мы находим p-value равное 0.03. Это меньше α, поэтому мы можем заключить, что новый дизайн сайта статистически значимо помогает пользователям делать больше покупок, так как вероятность, что с учётом случайной модели могут произойти настолько же предельные результаты, что и наблюдаемые, составляет 3%. Таким образом, уровень статистической значимости и p-value помогают исследовать данные и делать выводы о том, действительно ли различия между группами или явления статистически важны или могут быть объяснены случайностью. Ещё один пример: у нас есть генеральная совокупность, которая включает n количество пользователей, допустим, какой-то видео-игры. Мы берём выборку, равную 100 пользователям, и по этой выборке хотим сделать оценку генеральной совокупности. Сформулируем H0 средний возраст генеральной совокупности равен 14 лет. Как альтернативную H1 возьмём средний возраст пользователей генеральной совокупности больше 14 лет (гипотеза односторонняя, поскольку нас интересует отклонение только в одну сторону). В эксперименте участвовало 100 пользователей, средний возраст составил 15 лет, при уровне стат. значимости в 5%, p-value равно 0.2% в итоге, нулевую гипотезу (H0) мы отвергаем, т.к. p-value < α и вероятность, что мы можем получить настолько же предельные результаты, что и наблюдаемые составляет 0.2%. Однако стоит помнить, что P-value не измеряет вероятность, что изучаемая гипотеза является истинной. Не стоит базироваться только на том, переходит p-value определённый порог или нет. В следующем сообщении будет приведён пример применения t-test на Python.