Зачем ящику усы

Мы уже разобрали довольно много тем из статистики, но не разобрали некоторые важные понятия, к которым относятся квантили и квартили. Они вам очень понадобятся когда вы будете рисовать ящики и усы к ним. Если вы задали себе вопрос: “Что еще за ящик с усами?”, то тогда вам точно эта статья будет полезна. Давайте начинать.

Зачем ящику усы

Что это за штуковины?

А начинать мы будем с квантилей (не путайте с квартилями). Это такие значения признака, которые делят упорядоченные данные на некоторое число равных частей. Этих частей может быть любое количество, в зависимости от желания исследователя, но обычно все же используются стандартные:

  • Мединана, которая делит нашу выборку пополам. О медиане мы говорили в нашей прошлой статье.
  • Процентили / перцентили. Делят выборку на 100 частей, каждая из которых соответствует проценту.
  • Децили — делят выборку на 10 частей.
  • Квинтили, секстили, пентили и все что придет вам в голову и устраивает ваш слух.
  • И самое главное, зачем мы тут собрались — квартили.

Как вы наверное уже догадались, квартили делят нашу выборку на 4 равные части (от слова кварта, конечно же). Самих квартилей всего три: 25, 50 и 75 процентов (потому что чтобы разделить линию на 4 части нужно сделать 3 надсечки, а не 4)

Зачем ящику усы

Как посчитать квартили?

Тут все также просто, как разрезать половину пиццы на 4 равные части. Для этого нужно все данные поделить пополам и найти второй квартиль. Это мы умеем делать, потому что второй квартиль всегда является медианой, а для нахождения первого и третьего квартиля просто нужно повторить предыдущую процедуру с полученными двумя кусочками после первого деления.

Если вам проще разбираться на примере, то вот пример. У нас есть выборка с ростом 44 людей, которую мы отсортировали по возрастанию. Соответственно, медиана должна сделать так, чтобы и слева и справа у нас было 22 человека. Данному критерию соответствует рост 175 см.

Далее делим пополам полученные половины. В каждой половине 22 человека, значит медианы в этих половинах должны разделить данные так, чтобы и слева и справа было по 11 людей. Делаем это и получаем, что отсека первого квартиля — 165 см, а третьего —185 см.

На рисунке квартили изображены красной линией.

Зачем ящику усы

А зачем?

Квартили, так же как и медиана, показывают, какая доля совокупности соответствует тому или иному диапазону показателей. На примере с ростом мы можем понять, что по 25% людей в выборке ниже 165 см или выше 185 см. Либо, зайдя с другой стороны, утверждать, что 50% из выборки соответствуют росту от 165 до 185 см. Это значит, что при помощи квартилей, мы можем с некоторой степенью допущения охарактеризовать как центральную тенденцию, так и меру изменчивости выборки. Повторимся, для этих целей не обязательно использовать квартили. Например, в качестве условных границ нормы лабораторных показателей принято использовать 5-й и 95-й процентили

Также мы можем охарактеризовать симметричность распределения, исходя из положения первого и третьего квартилей относительно второго (медианы). В нашем случае, размах между первым и вторым и размах между вторым и третьим равны (по 10 см в ту и другую стороны), а значит распределение симметрично.

Ну и конечно же понятие квартилей важно при визуальном отображении характеристик выборки, а именно при построении так называемого box plot (он же ящик с усами). Этот пример визуализации данных очень популярен и часто используется в различных статьях.

Зачем ящику усы

Центром ящика является медиана (для нас 175 см). Краями ящика являются 1-й и 3-й квартили (165 и 185 см). Усами ящика принято брать по 1,5 межквартильных размаха в каждую сторону. Межквартальный размах — это разница между третьим и первым квартилем (для нас равен 20 см т.к. 10 см плюсом и 10 с.м. минусом от второго квартиля). Усы же будут равняться 30 см (20 см * 1.5).

Все что не попало в полтора квартиля — выброс. В нашем случае границами усов должны быть 135 и 215 см. Учитывая, что данных значений в нашей выборке нет, границами усов будут просто минимальное и максимальное значение. Пугаться этого не стоит. Зачастую исследователями box plot сознательно рисуется без использования 1,5 МР, а просто с крайними значениями выборки.

Сам по себе box plot не дает каких-то выводов, но очень удобен для сравнения нескольких совокупностей, так как отображает за раз множество характеристик выборки (медиану, нижний и верхний квартили, минимальное и максимальное значение выборки и выбросы), а также дает представление о плотности и асимметрии распределения. В связи с этим его очень часто применяют в мета-анализах для сравнения результатов нескольких исследований и поиска различий между ними.

Зачем ящику усы

Итоги

Закрепим самые важные термины и тезисы из только что прочитанной статьи.

  • Квантили — это такие значения признака, которые делят упорядоченные данные на некоторое число равных частей.
  • Квартили — это разновидность квантилей наряду с перцентилями, децилями, медианой и т.д. Квартили делят совокупность на 4 равные по количеству значений группы.
  • Квартили позволяют оценить с некоторой степенью допущения как центральную тенденцию, так и меру изменчивости выборки, а также симметричность распределения.
  • Ящик с усами (box plot) — график, использующийся в описательной статистике, отображает медиану, нижний и верхний квартили, минимальное и максимальное значение выборки и выбросы, а еще — плотность и симметричность распределения. Несколько таких ящиков можно нарисовать бок о бок, чтобы визуально сравнивать одно распределение с другим.

Это вам поможет читать разные научные исследования и понимать, что они там рисуют на своих графиках. Тема возможно не имеет прямо остро необходимого применения в геймдеве, как наши прошлые темы, но является важной для формирования базиса с которым вам предстоит работать дальше. Учить наизусть — не обязательно. На собеседовании скорее всего не спросят, но понимать ящики с усами — хороший бонус, не правда ли?

Зачем ящику усы
44
2 комментария

Ящику главное не усы, а язык.)

не смущает, что на диаграмме квартили неправильно определены?