Накрутил ли NIX рекордный онлайн? Копаемся в данных
Всем привет. Вот уже последние несколько месяцев мы пилим сервис для анализа данных в стриминге. Изначальная задумка была в том, чтобы сделать аналитический сервис по типу StreamHunt, однако в дальнейшем это начинание видоизменилось в сторону аудита рекламных кампаний и глубокого анализа чата. Все это время нашей небольшой командой мы разрабатываем инфраструктуру парсинга и обработки данных. На основании собранных данных я проведу анализ который покажет есть ли накрутка.
Важно упомянуть что это копия моей статьи на кибере, которую помогла опубликовать редакция этого сайта. В данной версии полностью сохранена авторская орфография, пунктуация и стилистика, поэтому читать эту версию невозможно. Но формулировки острее...
Интересной деталью является то, что NS пользуется данными с платформы streamscharts.com, которая создана в Украине, и по идее с российским рынком не работают... Однако, все же стало интересно кто из брендов или агентств платит им 400$ в месяц за подписку на аналитику Twitch. Судя по всему NS платит... Но давайте разберемся...
Контекст
Титаны доты дерутся за общественное одобрение: NS обвиняет Nix в накрутках, заявляя что есть показатели, по которым можно определить накрутку. Мол, если, удельное количество сообщений ниже, велика вероятность накрутки. Про то, действительно ли это так – поговорим в конце. А сейчас немного аналитики.
С одной стороны – заявление может звучать логично. Срденему разработчику ботофермы проще обеспечить вычислительные мощности для ботов которые не пишут сообщения в чат, особенно если речь идет про сотни тысяч зрителей. С другой стороны, ничего не мешает реализовать простейший скрипт который например - повторяет реакции в чате отображаемые несколько раз, присылать несколько связанных последовательных сообщений задавая вопросы (которые как правило остаются без ответа на больших стримах) или общаться между двумя ботами. Все это реализовать не так уже и сложно, если мы реализовали виртуального зрителя.
С другой стороны – низкий показатель активности чата не прямо указывает на накрутку, а скорее может быть расценен как низкая вовлеченность. Низкая вовлеченность в целом типичная история для крупных инфлюенсеров, это не специфическое явление ни для твича, ни для какой-либо другой соц.сети. Насколько различным может быть этот показатель - вопрос открытый. У кого-то больше у кого-то меньше, и это не обязательно показатель накрутки. Однако, обязательно, снижает привлекательность стримера в глазах рекламодателя.
Важно также понимать, что разный тип контента генерирует различный уровень вовлеченности. Помимо этого, есть разная аудитория, которая имеет различный профиль активности (типовое поведение в сети), которая приходит на определенный контент. Все это необходимо учитывать при оценке тех или иных показателей.
Насколько я понял, в день максимального онлайна Nix наслаждался матчами с крупнейшего международного соревнования The International. Он комментировал матч, выступал с аналитикой. Матчи в доте славятся своей динамикой в присутствии нужной аналитики, и конец каждого матча можно отследить через пики на графике онлайна. Это выглядит достаточно натурально.
Как вы понимаете накрутке зрителей на твиче уже много лет как явлению. За последние годы рынок накрутки растет, количество сервисов растет (нужно будет сделать отдельный материал с обзором сервисов, с нюансами - если интересно пишите). Как в США, так и в России. Из легко доступной статистики можно посмотреть количество запросов в google trends. Из этого можно предположить что рынок подобных услуг растет (как и рынок рекламы твича, особенно нелегальной)
А значит, изощренность накрутки также возрастает. Самые крупные чеки у самых крупных стримеров. Очевидная накрутка для них - риски. Поэтому они готовы платить больший процент от своих гонораров. А значит, более и могут позволить себе более изощренные алгоритмы. Мы попробуем сегодня на основании данных вскрыть эти алгоритмы.
Анализируем данные
Мы делаем собственную платформу парсинга, отлаживаем, доделываем, поэтому количество данных ограничено диапазоном изображенном на графике ниже. Стоит это учитывать. Нас интересует последний пиковый стрим.
Первое на что указывают люди - на количество незарегистрированных пользователей. С одной стороны это самый простой способ накрутки. Несколько десятков тысяч виртуальных машин, встраивание на внешнем сайте (или на твиче) и вот вам дополнительные зрители. Самое главное что я не понимаю в этом отношении - зачем? Зачем накручивать рекордный онлайн, когда твоя трансляция и так в топе твич и на главной твич. Какой смысл? Что от этого изменится? НС зачем-то указывает на потенциальную накрутку, но не объясняет причины, потому что по идее денег от этого больше не станет. Продаж больше не станет и тд и тп. Эту гипотезу (о накрутке незарегестрированных) сразу отбрасываем.
Для обнаружения наиболее явных аномалий можно обратиться к подробному графику пикового стрима. На графике отразим процент зарегестрированных пользователей, частоту отправки сообщений и другие данные (для понимания - оранжевый это пониковый пересчет чаттерсов, и он непостоянный так как собирается по частям за несколько итераций)
Как можно увидеть на графике особых аномалий увидеть практически нельзя, однако частота дискредитации немного ниже, из-за чего пики видны хуже чем у twitchtracker. Особо наблюдательные могут также обнаружить слабую зависимость количества сообщений в минуту от пиков онлайна (вернее, с концом матчей которые просматривались).
Вполне возможно что мы можем выбрать некие удельные показатели для сравнения с другими стримами (например разделить показатель среднего онлайна к пиковому и тд и тп). Сами по себе эти показатели могут ничего не означать, однако создать общую атмосферу аномальности и дать подсказку куда рыть.
Как видно общей аномальности не наблюдается, однако, возможно самый главный показатель который мы можем сравнить относительно прошлых стримов - количество новых пользователей (т.е. сколько появилось уникальных ников без тех что присутствовали на трех стримах до этого).
Получается что около четверти пользователей (в пике) на трансляции ранее не заходили на канал на аналогичный ивент который был до этого. Эту ситуацию (в случае если мы допускаем накрутку) можно истрактовать двумя способами. Первый - мы допускаем что накрутка была разовая и именно в пиковый момент. В таком случае максимальный показатель который накрутил Nix не превышает +-80к онлайна (новых в 4 раза меньше старых). В условиях ограниченной выборки мы будем вынуждены проанализировать именно эту гипотезу, хотя в конце я предоставлю еще одни аналогичные подходы для оценки общей репутации аудитории на стримах Nix.
Итак, давайте сравним удельные показатели отражающие поведенческие паттерны “накрученных” пользователей с типичными стримерами Nix.
Самые аномальные показатели - на графиках выше. Судя по этим данным можно сделать вывод о том, что “накрученные” зрители реже пишут сообщения, а также в несколько раз чаще используют эмодзи в своих сообщениях. С одной стороны это может указывать на накрутку, однако, в целом по своему опыту могу сказать что новым зрителям нужно время на привыкание к стримеру даже в самой привычной среде, и немногословность людей (а также типовые ответы со смайликами) может быть обусловлена именно этим. Точно можно сказать что качество старой аудитории Nix намного выше чем новой (или накрутки).
На этом можно было бы и закончить… Но… Есть еще один способ оценить накрутку. В нашей базе собираются многие стримеры, и в этой связи мы можем позволить себе вводить показатель “репутации” для чаттерсов.
Скажи мне, кто твой стример, и я скажу, кто ты…
Итак, последней итерацией для проверки на накрутку станет репутационный анализ аудитории по стримерам. К сожалению, так как алгоритмы определения накрутки на сегодняшний день все еще слабо развиты, мы будем опираться на неэкспертный источник в вопросах определения репутации (все-таки чтобы создать такие методы мне нужны деньги). Мы будем опираться на работу инфлюенсера OneGo, который составил таблицу “зеленых” (“0” или честный канал), “красных” (“1” или канал с накруткой) и “желтых” (сомнения) каналов, опираясь на свои представления о работе накрутки (по тем что обозначены как “-” данных нет). Подробный обзор его метода можно посмотреть здесь. Мы же возьмем лишь его результаты и не будем подвергать их сомнению (пока что). Также посмотрим с какими стримерами у Nix больше всего пересекается новая и старая аудитория. Для анализа мы возьмем как явно накрученных так и подозрительных.
Взяв этот набор данных мы сравним пересечение аудитории и выдадим аналогичный рейтинг аудитории Nix (он, кстати, по таблице OneGo является честным).
Сначала давайте подробнее проанализируем, если Nix накручивает, то вероятно, у него будет либо уникальная аудитория которая никогда ранее никуда не заходила, либо заходила на аналогичные подозрительные каналы. Внимание на следующий показатель:
Таким образом, 73% всей аудитории присутствующей на стриме с финалом присутствует также на каналах других топ-300 стримеров.
При этом если смотреть по “новым” чаттерсам, то процент уникальных среди них выше.
Однако, количество уникальных новых чаттерсов - незначительно по сравнению с неуникальными (т.е. с теми, кто присутствует на других каналах). Важно - это не показатель зрителей (т.е. не 50к онлайна единовременно), это уникальные зрители которые заходили и уходили со стрима никса за 12 часов стрима. Т.е. этот показатель при пиковом онлайне в 400к достаточно низкий (общее количество ников за стрим получилось около 3 млн).
Исходя из количества непересекающейся аудитории мы вновь пришли к примерно 25% накрутки (хотя новых & уникальных получается около 1% от общего количества).
Проверим, действительно ли у новых зрителей большой процент пересечения с подозрительными каналами
По факту пересечения с подозрительными каналами минимальные у Nix, и не превышает 2% по разным каналам по ВСЕЙ аудитории... По методике обнаружения накрутки OneGo – Nix точно не накручивает. В дальнейшем мы будем также сравнивать и другие точные показатели - например количество зарегистрированных пользователей с подозрительных каналов, поведенческие паттерны, но не в этот раз...
Давайте проверим, какие еще стримеры пользуются тем же сервисом накрутки, у кого еще можно наблюдать ту же аудиторию, составим топ по проценту зрителей Nix в составе общей аудитории других стримеров.
Если говорить про “новых” зрителей, то топ по аналогам в топ-300 стримеров будет выглядеть так. Учитывая что размеры каналов ниже в подавляющем количестве не превышают 2к онлайна, эта новая аудитория явно не похожа на накрутку (хотя есть и крупные).
Если кто-то из вас замечал что на этих каналах присутствует подозрительная активность - напишите в комментариях. Также, если мы обвиняем в накрутке стримеров выше, то и обвиняем тех, у кого сидит аудитория Nix, т.е. следующая характеристика это процент аудитории на стриме Nix, которая сидела у других стримеров.
Важно упомянуть что аудитории пересекаются между стримерами, поэтому тут не должно получится 100% при суммировании. Но это по всей аудитории, что с “новой” или “накрученной”?
Таким образом, если это накрутка то под подозрением прежде всего sasavot. Есть ли подозрения в его сторону? NS считает что стримеры выше накрутили онлайн? Спросите у него.
Ну и напоследок – самое интересное. У нас есть возможность проанализировать источники аудитории которые перешли на канал Nix. Т.е. сначала эти чаттерсы присутствовали в чате у одного стримера, а потом через время пришли на канал Nix. Этот процент от общего количества чаттерсов, а не текущего онлайна. И важно что учитываются только первые переходы (т.е. даже если они ходили туда сюда между каналами, учитывается только первый переход)
Топ по переходу на канал Nix - канал just_ns, с которого и началось наше расследование. Вероятно именно эта часть чата сидела молча. Цикл замкнулся…
Выводы
На сегодняшний день никто не скажет вам, накручивается аудитория или нет, за исключением совершенно вопиющих очевидных случаев. Более того, в бизнесе сегодня нет интересантов для того, чтобы вырабатывать реальные средства для вскрытия накрутки (если такие интересанты есть - напишите, мне есть вам что предложить). Из-за этого все обвинения будут иметь формат инфоповода, и никогда не будут переходить в юридическую, реально обоснованную плоскость. С одной стороны - это хорошо, потому что никто не сядет. С другой стороны - это показатель незрелости индустрии. Индустрия пока что не заинтересована в том, чтобы разбираться куда тратятся деньги, главное что тратятся. Это устраивает всех, и на каждом этапе рекламной кампании (кроме того, где о проверке речи уже не идет). В этой связи не стоит придавать особого значения обвинениям… До соответствующей проверки.
Если говорить про накрутку Nix, то на основании приведенных данных, множество факторов указывают на незначительность накрутки даже если она была. Процент аудитории который был накручен явно не превышает 10% (и это самая смелая оценка). Ибо если мы утверждаем что Никс накручивает - нам придется также утверждать что накручивают ооочень многие люди, в том числе и NS… И если мы допускаем даже это, то на данном этапе у меня (и у кого бы то ни было) нет методологической возможности выявить это. Учитывая что Твич совсем недавно проводил чистку, подозреваю что и у Твича на этот счет были размышления, и какие-то аккаунты были вычищены. В любом случае настолько сложное алгоритмическое поведение придется вычислять намного сложнее, придется более подробно проанализировать сервисы по накрутке, выявить общие алгоритмы… В целом это тема отдельного исследования которое я в будущем скорее всего проведу. Накручивать же незарегистрированных пользователей слишком просто и палевно - такую накрутку легко обнаружить администрации Твича, и наверное нет смысла таким заниматься.
Важно упомянуть что статья не является окончательной и экспертной, подходы и методики в data-driven инфлюенс-маркетинге на твиче только начинают свое развитие и любое мнение имеет вес. Пишите свои комментарии, буду рад любой критике. Если у вас есть желание поиграться с сырыми данными - пишите мне в тг или вк. Также подписывайтесь на мой твич, ютуб и тг под ником pi14cyber. Возможно введу рубрику анализа аудитории ваших любимых стримеров…