Мне никогда особо внешний вид Тифы не нравился, но тут ребята правда проделали неплохую работу, чтобы она стала выглядеть вменяемо в рамках описанного мира и не вызывать тупых вопросов :)
Я ничего и не оправдывал лол, мой комментарий к эпизодальности не имеет почти никакого отношения. Более того, само решение делить игру на эпизоды мне не нравится и я его не поддерживаю, хотя у меня есть предположения и сформированное мнение относительно причин всего этого.
Вопрос был «с чего в ваших головах в игре контента на несколько ААА игр», – я на него ответил: это связано с тем, как ощущается продолжительность игры для конечного пользователя.
Для большинства людей эта игра на сотни часов, отсюда и ощущение, что контента в ней много (независимо от того, так это или не так и что вообще понимается под «контентом»)
Все длинные игры кажутся с большим количеством контента, чем короткие, очевидно же, то же самое было и с ведьмаком и с рдр2.
Для нормального ответа придется сформулировать вопрос "достаточности контента ААА", что само по себе звучит глупо. Если под трипл-А понимать бюджет, то выделен он может быть с разными целями, доставить игроку удовольствие в коридорном шутере – тоже цель, пусть она и достигается за 10-14 часов. Сравнивать количество контента дума и ведьмака можно, но зачем, если эти игры преследуют разные цели. Можно ли засунуть контента на 500 часов и "несколько ААА-игр" в одну? Можно. Можно ли разнести их по эпизодам и продавать отдельно? Можно. Вон выше скриншот с затратами на Modern Warfare 2, который стоил 300 миллионов, контента там на 10 часов дай бже, ну или на растянутый сорокет, если хочется все ачивки.
А если отвечать в лоб про размер фф7, то это без сарказма и уловок достаточно большая игра. Ее полный размер сложно оценить, потому что сама фраза "размер контента в игре" недостаточно строго определена, но я на всякий случай оставлю полное прохождение в текстовом виде, которое занимает 120 (!) страниц чистого текста без картинок. Это все еще не мануал по Dominions 4 на 500 страниц, но камон, это очень много!
https://www.supercheats.com/guides/pdf/final-fantasy-vii.pdf
Ну вот с точки зрения того, останется ли лидер по CTR и дальше по времени – вопрос достаточно тонкий. Это необходимо либо доказать по данным, либо сослаться на исследование по рынку с трендом подобного поведения, иначе это не более, чем догадки и гипотезы.
В теме соц. опросов я не силен, но насколько читал, там используется другой подход к проектированию исследования, именно за счет его качественного изменения по сравнению с "большими" данными из интернета. Я бы его сравнил с качественными исследованиями вроде плейтестов или UX исследований с респондентами, но могу быть и не прав.
Оптимизация трафика в тестах это всегда добро, только методы анализа едва ли подходят под громкое название A/B тестов. Сейчас я попробую объяснить почему приложенные результаты работы не стоит расценивать, как полноценную оптимизацию закупочного трафика.
Можно два раза подбросить одну и ту же монетку 50 раз и получить 23 и 27 решек, после чего с гордостью заявить, что вторая "лучше", хотя разница в 4 "успеха" оказалась не более, чем волей случая. Закон распределения, которому подчиняются случайные величины с m успехов из n опытов называется биномиальным и если посмотреть на картинку распределения, можно заметить достаточно широкий "холм" рядом с ожиданием количества успехом, он характеризуется дисперсией и показывает то, насколько случайные величины могут "ходить" вокруг среднего значения. Специально для таких ситуаций были придуманы тесты для биномиального распределения.
Теперь давайте попробуем быстренько разобрать ваш пример с данными (сырых у меня нет, но и агрегированных будет достаточно). Для начала мы попробуем описать строгую методологию, потому что сравнивать два случайно-полученных числа, как мы уже убедились выше, не совсем правильно.
Для начала сравним плотности распределения данных случайных величин при вероятности успеха p_1 = 0.039 и p_2 = 0.0464 соответственно. Для этого я построил аппроксимационную плотность с использованием теоремы Муавра-Лапласа (количество событий позволяет почти идеально описать график). По хорошему, наша плотность должна строиться по событиям от 0 до 8800 испытаний, но так как основной график приходится только на часть элементов, я обрезал большую часть хвостов, на графике площадь по первым равняется 0.999, а под вторым 0.998883. Соответственно можно заметить, что графики неплохо так пересекаются. Доверительные интервалы я не откладывал, их можно изучить отдельно, но и так видно, что площадь пересечения намного больше, чем нам хотелось бы для значимой разницы.
Для биномиального распределения можно воспользоваться тестом пропорций, однако перед его использованием давайте посмотрим, сколько людей на такой вероятности нам надо получить, чтобы наш результат был вообще статистически значимым. Поставим уровень значимости alpha = 0.05 и 1 - beta (ошибка второго рода) = 0.8. Для оценки подобного рода можно использовать аппарат Power Analysis, а именно его двух выборочный критерий оценки мощности для теста пропорций с параметрами: p1 = 0.0039, p2 = 0.00464, sig.level = alpha = 0.05, power = 0.8. Ответ, который мы получаем: n = 121882. То есть для того, чтобы с уровнем значимости 0.05 и мощностью 0.8 обнаружить разницу между такими небольшими вероятностями, нам необходимо по 120 тысяч человек на каждую выборку! Это почти в четырнадцать раз больше, чем у нас есть сейчас.
Ну и под конец, давайте все таки попробуем обнаружить разницу и прогнать тест пропорций, чтобы наша совесть была чиста. Получаем следующий результат:
2-sample test for equality of proportions with continuity correction
data: successes out of total
X-squared = 0.40133, df = 1, p-value = 0.5264
alternative hypothesis: two.sided
95 percent confidence interval:
-0.002780407 0.001304929
sample estimates:
prop 1 prop 2
0.003901320 0.004639059
Как видим, p-value > alpha, 95% доверительные интервалы пересекаются, а оценки группы 1 и группы 2 настолько низкие, что их просто невозможно различить. Сразу хочу сказать, что при анализе нескольких выборок биномиального распределения, использование двухвыборочных критериев уменьшает мощность и увеличивает ошибку первого рода из-за погрешности парного сравнения. То есть, даже если бы мы сравнили каждую группу с каждой, нам бы пришлось применять поправки на множественные сравнения семейства Бенджамини-Хохберга, иначе результаты могли бы быть неверными.
В итоге мы получаем интересные результаты, которые, к сожалению, ничего не говорят о фактическом положении дел. И несмотря на то, что у нас, будто, есть победитель в конверсии, на данных объемах данных это не более чем просто шум, который не стоит считать реальным достижением. С другой стороны, если бы подобное соотношение осталось бы на порядках сотен тысяч человек, мы бы уже могли говорить о реально существующей разнице между каналами трафика.
Здесь, прежде всего, следует понимать, что это не ходовой показатель, который не часто используется в анализе или представлении данных, из-за этого надо сразу определить его как можно более строго и чётко, чтобы у всех сохранялось единое инфополе. Более того, между "средним покупателем каждой игры" и "средним покупателем GTA V" уже достаточно большая разница в одном уровне агрегации.
В первом случае мы говорим про всех пользователей и все игры сразу.
Во втором случае мы сегментируем аудиторию по одному из параметров (по наличию GTA V среди купленных товаров), здесь это является ключевым отличием. Таким образом мы отходим от изначального множества пользователей и говорим, что нас интересует только некоторая часть из них, которая, возможно, ведёт себя другим образом (6 человек против 15 изначальных). Специального названия для этого показателя я не видел, сам по себе он синтетический, через него сложно наглядно показать какие-то выводы (с чем Вы, я полагаю, и столкнулись). Он больше похож на некоторую адаптацию задачи классификации, мол, сначала мы выберем ходовой продукт, а потом посмотрим сколько в среднем покупок совершают пользователи с этим товаром.
Вообще, исходная задача и формулировки звучат не очень красиво. Из-за большого разброса в покупках у нас явно есть две категории пользователей: первая покупает мало товаров, вторая покупает много. В следствие этого, в наших данных по количеству продаж прыгает дисперсия и не дает полной картины в "средних" показателях. В таких ситуациях чаще используют робастные величины, устойчивые к выбросам, это либо медиана, либо усеченное среднее (иногда берут квартильные показатели по покупкам/доходу).
Если говорить в целом про "среднего покупателя каждой игры", то проблема возникает даже на уровне понимания того, что мы считаем:
1. Возьмем один товар
2. Возьмем для него всех пользователей, которые его купили
3. Посчитаем среднее (1) количество игр, которые они купили
4. Повторим для всех остальных товаров
5. Возьмем среднее (2) по всем этим величинам.
Назвать его в одну строчку не получится, да и в одном предложении получится "среднее от среднего по количеству покупок пользователей, выбравших товар, по всем товарам", то получается достаточно сильная каша из всего подряд. Я бы декомпозировал на более простые метрики.