Её величество — корреляция

Итак, в нашем цикле мы подходим к главной теме в математической статистике. Все прошлые статьи вы найдете в нашем телеграм-канале. Подписывайтесь, чтобы получать еще больше полезных материалов касательно разработки игр. А наш сегодняшний гость — корреляция. Очень интересный статистический показатель, на основе которого сделано много правильных и не очень выводов.

Её величество — корреляция

Что такое корреляция и какая она бывает?

Корреляция показывает связь двух или более случайных величин. Допустим, у вас есть величина X и Y. Разместив их на графике (по одной оси X, а по другой Y) вы сможете увидеть, как себя ведут данные в зависимости друг от друга. Корреляция будет говорить вам о том, как похоже себя ведут две величины относительно друг друга.

Корреляция бывает разной. Различают два вида:

  • Положительная корреляция возникает, когда значение одной величины растет, и одновременно с ней возрастает значение другой величины.
  • Отрицательная корреляция отражает противоположную ситуацию, когда увеличение одной величины провоцирует падение другой.

Каждый вид корреляции бывает разным по силе. Эту силу называют коэффицентом корреляции, и вот какие они бывают:

  • Очень слабая корреляция. Коэффициент принимает значение от 0 до 0.2, что показывает что влияние одного значения на другое практически или полностью отсутствует.
  • Слабая корреляция. Коэффициент принимает значение от 0.2 до 0.5, что показывает что влияние одного значения на другое слабое, но присутствует.
  • Средняя корреляция. Коэффициент принимает значение от 0.5 до 0.7, что показывает что влияние одного значения на другое действительно заметно.
  • Сильная корреляция. Коэффициент принимает значение от 0.7 до 0.9, что показывает что влияние одного значения на другое очень заметно.
  • Очень сильная корреляция. Коэффициент принимает значение от 0.9 до 1, что показывает что влияние одного значения на другое очень сильное.

Пока что все выглядит запутанно. Как запомнить все эти типы корреляций? А еще нужно определять их на графиках…

Не пугайтесь, все на самом деле просто. Можно учится в игровой форме, в этом вам поможет сайт guessthecorrelation.com. Это веб игра, в которой вам дается случайное поле рассеивания величин, и вам нужно определить корреляцию “на глаз”. Очень залипательная штука, но я бы поработал над саунд дизайном. После 10 уровней сможете отличить корреляцию 0.2 от 0.3 с первого взгляда.

Её величество — корреляция

Корреляция ≠ истина!

Самое важное правило корреляции, которое вам нужно запомнить: корреляция — это не причинно-следственная связь. Если две метрики ведут себя похоже, это не всегда значит, что они зависят друг от друга. Корреляция говорит о схожести поведения показателей, а не о том, что показатели зависимы или не зависимы друг от друга. Например, может быть не учтена третья переменная.

Допустим, у вас есть данные по проданному мороженому в день и количестве утонувших людей в этот же день. С первого взгляда на график мы видим, что корреляция какая-то есть. И даже положительная! Но ведь мы не делаем вывод, что чем больше мороженого продается, тем больше людей тонет? А может быть если кто-то утонул, то было обязательно куплено мороженое? Весь секрет в том, что мы не учитывали третью переменную — температуру. Если день жаркий, то люди купаются и тонут, а также люди едят мороженое.

Её величество — корреляция

Еще одна причина, по которой мы можем сделать ошибочные выводы — случайное совпадение. Да, совпадения случаются. Вот на рисунке ниже статистика людей, утонувших в бассейнах, и фильмов, в которых снялся Николас Кейдж. И мы сразу видим очень сильную корреляцию данных. Означает ли это, что если Николасу Кейджу предлагают роль, то обязательно кто-то утонет? Я думаю что все-таки нет. В обратную сторону эта корреляция тоже не работает. Если кто-то утонул в бассейне, то Николасу Кейджу не предлагают роль.

Её величество — корреляция

Вот еще пример на случайное совпадение данных. На рисунке ниже вы видите долю браузера Internet Explorer по отношению к другим браузерам, и количество убийств в США. Данные ведут себя очень похоже. Можете попробовать вывести теорию и найти причинно-следственную связь в комментариях, но мы будем считать, что просто так совпало. Хотя кто знает…

Её величество — корреляция

Как применить в геймдеве?

Допустим у вас есть задача — подготовить акцию для магазина в своей игре. Это должна быть таргетированная распродажа на какие-то конкретные уровни в вашей игре. Как определить кому и что предложить? Тут вам и поможет статистика (корреляция и ранее изученные темы)

  • Какое время распродажи мне выбрать? Нужно взять метрику онлайна (сколько пользователей находится онлайн по часам) и собрать эту метрику нужно за 8, 12 недель. Так вы найдете корреляцию между днем недели и онлайном в своей игре. Так вы сможете выбрать, какой день будет наилучшим для старта акции.
  • Как рассчитать баланс валюты по уровням? Нужно учитывать выбросы — читеров и китов. Смотрим на медиану, а не среднее. Это важно, так как такая выборка очень волатильна. Еще лучше — разделить игроков на платящих и не платящих.
  • Как рассчитать спрос на товар? Тут вам поможет коэффициент вариации. И, в зависимости от целей акции, выбрать группу товаров, на которые вы будете делать скидку.
  • Как подвести итоги акции? Тут важно выбрать момент, когда вы будете смотреть итоги. Обычно, прирост сразу после акции не дает правильных результатов, так как после акции будет так называемое “похмелье” и выручка будет падать. Лучше построить доверительные интервалы для дохода, который вы считаете нормальным (чем интервал ниже, тем лучше), и подождать некоторое время после акции, чтобы ваш доход вернулся в этот доверительный интервал. Как только это случится, можно считать, сколько вы заработали в акцию и сколько потеряли в период “похмелья”. Ну и делать выводы об успешности данной акции.
Её величество — корреляция

Заключение

Вот за несколько недель мы с вами и проскакали по темам, связанными с математической статистикой. Конечно это не все, что я мог вам рассказать. Есть еще много интересных вещей, которые вы сможете изучить самостоятельно. Главное, что у вас уже есть некая база, с которой путь в этой теме будет гораздо проще. Желаю вам успехов в изучении!

Её величество — корреляция
11
1 комментарий

Вижу тг-канал - ссу автору на лицо

3
Ответить