Traffic Show. Выпуск №0 (Пилот)

Дамы и господа, приветствую вас на первом реалити-шоу о рекламе игр - Traffic Show! В этой программе мы будем рассказывать об экспериментах по продвижению игр.

Tap Tap Builder (Herocraft)
4848

Оптимизация трафика в тестах это всегда добро, только методы анализа едва ли подходят под громкое название A/B тестов. Сейчас я попробую объяснить почему приложенные результаты работы не стоит расценивать, как полноценную оптимизацию закупочного трафика.

Можно два раза подбросить одну и ту же монетку 50 раз и получить 23 и 27 решек, после чего с гордостью заявить, что вторая "лучше", хотя разница в 4 "успеха" оказалась не более, чем волей случая. Закон распределения, которому подчиняются случайные величины с m успехов из n опытов называется биномиальным и если посмотреть на картинку распределения, можно заметить достаточно широкий "холм" рядом с ожиданием количества успехом, он характеризуется дисперсией и показывает то, насколько случайные величины могут "ходить" вокруг среднего значения. Специально для таких ситуаций были придуманы тесты для биномиального распределения.

Теперь давайте попробуем быстренько разобрать ваш пример с данными (сырых у меня нет, но и агрегированных будет достаточно). Для начала мы попробуем описать строгую методологию, потому что сравнивать два случайно-полученных числа, как мы уже убедились выше, не совсем правильно.

Для начала сравним плотности распределения данных случайных величин при вероятности успеха p_1 = 0.039 и p_2 = 0.0464 соответственно. Для этого я построил аппроксимационную плотность с использованием теоремы Муавра-Лапласа (количество событий позволяет почти идеально описать график). По хорошему, наша плотность должна строиться по событиям от 0 до 8800 испытаний, но так как основной график приходится только на часть элементов, я обрезал большую часть хвостов, на графике площадь по первым равняется 0.999, а под вторым 0.998883. Соответственно можно заметить, что графики неплохо так пересекаются. Доверительные интервалы я не откладывал, их можно изучить отдельно, но и так видно, что площадь пересечения намного больше, чем нам хотелось бы для значимой разницы.

Для биномиального распределения можно воспользоваться тестом пропорций, однако перед его использованием давайте посмотрим, сколько людей на такой вероятности нам надо получить, чтобы наш результат был вообще статистически значимым. Поставим уровень значимости alpha = 0.05 и 1 - beta (ошибка второго рода) = 0.8. Для оценки подобного рода можно использовать аппарат Power Analysis, а именно его двух выборочный критерий оценки мощности для теста пропорций с параметрами: p1 = 0.0039, p2 = 0.00464, sig.level = alpha = 0.05, power = 0.8. Ответ, который мы получаем: n = 121882. То есть для того, чтобы с уровнем значимости 0.05 и мощностью 0.8 обнаружить разницу между такими небольшими вероятностями, нам необходимо по 120 тысяч человек на каждую выборку! Это почти в четырнадцать раз больше, чем у нас есть сейчас.

Ну и под конец, давайте все таки попробуем обнаружить разницу и прогнать тест пропорций, чтобы наша совесть была чиста. Получаем следующий результат:

2-sample test for equality of proportions with continuity correction

data: successes out of total
X-squared = 0.40133, df = 1, p-value = 0.5264
alternative hypothesis: two.sided
95 percent confidence interval:
-0.002780407 0.001304929
sample estimates:
prop 1 prop 2
0.003901320 0.004639059

Как видим, p-value > alpha, 95% доверительные интервалы пересекаются, а оценки группы 1 и группы 2 настолько низкие, что их просто невозможно различить. Сразу хочу сказать, что при анализе нескольких выборок биномиального распределения, использование двухвыборочных критериев уменьшает мощность и увеличивает ошибку первого рода из-за погрешности парного сравнения. То есть, даже если бы мы сравнили каждую группу с каждой, нам бы пришлось применять поправки на множественные сравнения семейства Бенджамини-Хохберга, иначе результаты могли бы быть неверными.

В итоге мы получаем интересные результаты, которые, к сожалению, ничего не говорят о фактическом положении дел. И несмотря на то, что у нас, будто, есть победитель в конверсии, на данных объемах данных это не более чем просто шум, который не стоит считать реальным достижением. С другой стороны, если бы подобное соотношение осталось бы на порядках сотен тысяч человек, мы бы уже могли говорить о реально существующей разнице между каналами трафика.

5

Ох, спасибо за такой развернутый вопрос.

Немного о том, почему даже на таком объеме тест можно считать полезным.

1. Когда я запускал объявления, те объявления, которые показали себя лучше, и на старте показов тоже показывали лучший CTR. Их места в гонке сохранялись до полной открутки объявлений.

2. По моему опыту с запуском рекламных объявлений, лидера по CTR можно определить достаточно быстро. Действительно, хватает 3000 - 4000 показов, чтобы определить победителя. Это кстати интересная тема для материала - как будет меняться значение CTR в зависимости от объема показов. Но, к сожалению, я не записывал видео со статисткой объявлений в реальном времени.

3. Для социологических исследований, к примеру, используют гораздое меньшее число людей. К данному тесту нужно относится как соц. исследованию. А не как к набору случайных повторных событий. Так, например, для того чтобы провести соц. опрос по какой-либо теме среди жителей города Пенза, достаточно было бы опросить около 400 человек. Это поведение человека - кликнет или не кликнет по рекламе. Будет ли она хороша, или нет. Так же тестируют трейлеры к голливудским картинам, там не зовут на тестовые показы огромное количество человек. Небольшой выборки достаточно, чтобы определить, цепляет трейлер или нет. И с ростом количества генеральной выборке, количество необходимых респондентов и тестов растет не пропорционально. Вот, можете проверить это на калькуляторы выборок для соц. исследований -
http://socioline.ru/rv.php

Надеюсь, смог ответить на вопрос.

1

Комментарий недоступен

Комментарий недоступен