Гадание по цифровой печени. О чем говорят комменты на YouTube

Александр Суслов (Школа дизайна НИУ ВШЭ), Антон Костин (департамент философии МФТИ).

Древнеримские гаруспики предсказывали будущее, анализируя печень жертвенных баранов. Цифровая эпоха требует новые типы животных.

Гадание по цифровой печени. О чем говорят комменты на YouTube

Комментарии на ютубе могут быть очень ценным информационным сырьем - если выбрать верную методологию больших данных. Мы можем напрячь зрение и разглядеть в этом потоке бесполезных "кто слушает это в 2020?" что-то полезное. Например, какие игровые сообщества все еще живы, какие уже впали в кому, а какие никогда толком и не существовали.

Если мы планируем делать новую игру, можно по этим данным прикинуть, какую нишу стоит избегать, где народ уже откровенно приуныл, где этого народа никогда и не было. Если мы просто делаем игру своей мечты, то в анализе рынка нам нужды нет, если у нас более-менее бизнес-проект - большие данные будут более надежным средством, чем опрос родственников и знакомых или попытки аппроксимации по бесплатным данным Steamspy.

В своем анализе нам важно понимать свои пределы и не строить иллюзий. Самое главное - это по-прежнему расчет гороскопа. Такое давнее желание убрать информационный налет и посмотреть на суть вещей. Изначально все эти схемы про несовместимость близнецов с козерогом создавались методологией, которая в принципе очень близка современным статистическим методам. То есть в своем анализе мы очень часто будем нарушать заповедь про то, что корреляция не означает каузальности - может и не означает, но вот те, кто живут в этом доме, в самом деле чаще попадают в страховые ситуации на дороге, поэтому есть смысл им, неудачникам, стоимость страховки поднять.

"Бронзовая печень из Пьяченцы" - визуализация больших данных II века до н.э.
"Бронзовая печень из Пьяченцы" - визуализация больших данных II века до н.э.

Второй момент - данные большие, но есть специфика платформы, есть страновые особенности и есть языковые искажения. Запрос The Big Bang может адресовать к сериалу "Теория большого взрыва", а может вести к k-pop группе, и это картину замусорит страшно (мы столкнулись с таким явлением в своем исследовании комментаторов сериалов - подробнее здесь).

Игры и ютуб, что мы тут ищем - мы пробуем найти Саргассово море в мире сообществ. Саргассово море это такой водоем, чьи границы не обозначены берегами, но которое можно выделить из окружающей Атлантики за счет ряда признаков. Например, моряки Христофора Колумба его определили именно как отдельное море из-за странного течения, а современные данные определяют, что Саргассово море выше окружающего океана примерно на 1 метр (то есть оно как бы такой пузырь). Нам нужен такой же пузырь в океане игр.

Сформулируем гипотезу и цели исследования. Нам кажется, что в пространстве ютуба есть устойчивая система сообществ, сформированная в основном детьми, которая периодически способна порождать феномены вроде Bendy and The Ink Machine, серии FNAF или Hello Neighbor. То есть для стороннего наблюдателя это будет феномены, а для принадлежащего к системе сообществ человека популярность FNAF будет такой же закономерной, как популярность Call of Duty. Разница здесь в том, что CoD разрабатывается совершенно другой социальной системой, которая сложилась в начале нулевых - это большая игровая пресса, это устойчивая группа покупателей-мужчин, это система коробочных версий, розничных магазинов и выкладки товара на полке, это выставки и презентации со сцены. Это старая машина. FNAF - это уже машина новая, она работает по-другому.

В качестве теории мы здесь можем опереться на аутопоэтические системы Никласа Лумана, то есть такие системы, которые воспроизводят сами себя. Что это значит: приходит малыш 7 лет на ютуб, смотрит блогера Ярика Лапу, попадает с него на канал Принцессы, в 9 лет он уже вполне себе ветеран и приводит друзей или младших братьев, в 12 лет он становится взрослым и покидает эту систему. Переходит к более взрослому контенту внутри той же вселенной: перестает смотреть "сериалы" Ярика Лапы и смотрит гайды по строительству генератора случайных чисел, например. Но приведенные ранее им дети помладше остаются, приводят иных детей и эта система поддерживает себя сама дальше. Аутопоэзис - это самопостроение и самовоспроизводство.

В этом описании аутопоэзиса мы взяли Minecraft и это мы делаем осознанно. Minecraft и ютуб очень сильно связаны между собой. Minecraft стал культурным и игровым феноменом без использования машины "старой" игровой индустрии. Minecraft являет пример самовоспроизводимой, аутопоэтической системы. Наконец, мы выдвигаем гипотезу, что фольклор, создаваемый внутри сообщества Minecraft - Хиробрин, ритуалы его призыва в реальный мир, фигура-разработчика, вписанная в пантеон игры - все это в известной степени воспроизводится в сообществах FNAF и Hello Neighbor. В частности, Скотт Коутон является таким же важным персонажем в мире Five Nights at Freddy's как и Нотч в мире Minercraft, а демоническая сущность Хиробрина и его способность прорываться в реальный мир воспроизводится в ритуалах по призыву духа Соседа. Поэтому начать исследование мы решили именно c сообществ Minecraft, тем более, что эта игра по-прежнему занимает первое место в топе русскоязычных игровых запросов.

Это наша теоретическая рамка. Теперь перейдем к описанию прикладных вещей, приборов и материалов.

Наша методология

Анализируя комментарии с ютуба, можно реконструировать историю взаимодействия разных точек зрения и появление новых тем. Интереснее всего находить общих комментаторов разных роликов. Что это нам дает? Пересечение комментаторов говорит о какой-то общей теме, которая всех их интересует. Если разные ролики разных каналов имеют большое число общих комментаторов, то они объединяются в кластер или клику. Чем гуще кластер, тем, как правило, интереснее история.

Нам важна история, она показывает как и куда все развивается. Динамику комментариев отслеживаем по времени публикации. И время публикации используем для идентификации коммента во временных рядах всех комментариев. Некоторые темы развиваются медленно, десятилетиями. Но что касается игровых сообществ, то они в основном реагируют бурно. Вот пример исследования нашумевших в прошлом игр. За неделю там все менялось прямо-таки радикально.

Постепенно мы научились ранжировать комментарии с помощью пейджранка, изобретения Ларри Пейджа. В гугле пейджранк позволяет ранжировать результат поиска, выделяя важные страницы на основе их упоминаемости другими важными страницами. Применяя пейджранк к роликам на ютубе, мы можем составить их рейтинг на основе пересекающихся комментариев.

Массивы слов позволяют извлечь много ценной информации, но наши тулзы пока позволяют работать только с облаком слов (несколько примеров ниже) - это даёт нам очень наглядную визуализацию основных тем каждого избранного ролика. В дальнейшем мы планируем перейти к анализу тональности комментариев, откалибровав его на особенно эмоциональных сэмплах.

Ну и о самом главном - о визуализациях. Вообще говоря, без них большие данные остаются набором беспорядочных данных, которые обычным человеческим разумением истолковать невозможно. Получив картинку, можно уже приступать к цифровому гаданию по печени. Мы используем Gephi и изображаем комментарии в виде двудольного графа, в котором комментаторы соединены с роликами. Чем больше общих роликов, тем больше средняя степень графа и его заметность на картинке.

Для анализа упоминаний мы берем игру из верхней строки раздела “игры” в трендах ютуба по международной или русскоязычной версии. Затем мы собираем все ролики, попавшие в поисковую выдачу ютуба по запросу, выкачиваем комментарии к ним и получаем искомый датасет.

Minecraft как бог-император русского ютуба

Первым в очереди у нас будет “майнкрафт” - практически бессменный запрос из топа русскоязычных трендов игрового ютуба. Всего в датасет попало 1 433 922 комментария с 20 января 2013 года по 7 мая 2020 года.

Для начала посмотрим на общую динамику комментариев.

Гадание по цифровой печени. О чем говорят комменты на YouTube

Видно, что основная часть комментариев приходится на 2019-20 годы. Это не значит, что раньше майнкрафт не комментировали, так как обычно ютуб подкачивает в выдачу свежие по дате запроса ролики. Но некоторую особенность динамики график тем не менее отражает.

Есть два выраженных пика активности - в августе 2019 и мае 2020 года. Попробуем изучить общее содержание комментов по этим временным срезам.

Облако слов в августе 2019 года выглядит так.

Гадание по цифровой печени. О чем говорят комменты на YouTube

Заметно большое количество Егора Крида.

Теперь сделаем то же самое с периодом за май 2020 года.

Гадание по цифровой печени. О чем говорят комменты на YouTube

Доля селебрити заметно поубавилась. Из имен собственных на первый план выходят профессионалы-летсплейщики.

Ну а теперь проверим, кто же достиг высот влияния в майнкрафте, а заодно прочитаем топовые комменты к их роликам. Топ-10 роликов по версии пейджранка выглядит так.

В выдаче заметна кластеризация комментариев вокруг канала EdisonPts. Все остальные каналы появляются в рейтинге по одному разу, а у “Эдисона” 5 позиций из 10.

Вот как выглядит кластер “Эдисона” на графе комментариев из всей поисковой выдачи.

Гадание по цифровой печени. О чем говорят комменты на YouTube

Вместе с другими кластерами он образует самое заметное скопление комментариев.

На примере комментариев к роликам этого канала заметно сильное погружение комментаторов в игровую жизнь “в кадре”. Мемы ведущих неплохо “якорят” комментаторов. Многие комментарии повторяются из ролика в ролик. Обычно это показатель образовавшегося на канале ядерного сообщества. Посмотрим, как обстоят дела на этом канале.

Этнография ядерного сообщества

Для исследования комментаторов канала мы выкачали комментарии ко всем опубликованным роликам. Всего получилось 6 478 796 комментариев с 25 июня 2013 по 29 мая 2020 года. Посмотрим на общую динамику комментов на канале.

Гадание по цифровой печени. О чем говорят комменты на YouTube

И снова мы можем выделить временные периоды с разной динамикой. Видно, что с 2013 по конец 2016 года на канале было совсем мало комментариев. Зато в конце 2016 - начале 2017 года было что-то экстраординарное. Проверим облако слов за период с декабря 2016 по апрель 2017 года.

Гадание по цифровой печени. О чем говорят комменты на YouTube

Кроме имени канала выделяется зомби-апокалипсис и Жека, соведущий в тот период.

Теперь посмотрим, что обсуждают комментаторы сейчас. Возьмем временной срез с начала 2020 года.

Гадание по цифровой печени. О чем говорят комменты на YouTube

Появляется майнкрафт и Катя, соведущая в этот период. Всё это мы увидели в комментах из рейтинговых роликов.

Граф комментариев "Эдисона" выглядит довольно странно из-за своей сильной растянутости.

Гадание по цифровой печени. О чем говорят комменты на YouTube

Так как наш способ укладки Force Atlas 2 располагает вершины графа ближе, если между ними много связей, и дальше, если мало, то вытянутая форма графа обычно говорит о сильно меняющейся аудитории. Видно, что канал проделал долгий путь к своим нынешним комментаторам, вернее, они почти полностью поменялись. Его история начинается в нижней части графа (1). Комментаторы там рассеяны, в отличие от верхней части (2), где они образуют полусферу, замыкая ролики друг на друге. То есть ядерное сообщество образовалось недавно или даже прямо сейчас.

Выводы и толкование

Попробуем теперь человеческим языком описать, что мы нашли и что полезного отсюда можно полезного вынести.

Мы нашли ядерное сообщество комментаторов с максимальным пересечением по роликам на ютубе. Если текущий майнкрафт уподобить эпидемии коронавируса, то мы нашли его текущий Ухань. То есть не откуда все началось, не нулевого пациента, а там, где максимально плохо (или хорошо) прямо сейчас. Эпидемии болезней принято прекращать, эпидемии популярности принято раздувать, в обоих случаях полезно знать, где сиюминутный эпицентр.

Мы обнаружили пару примеров того, как “внешний” нарратив - политика, знаменитость - полностью переопределяет ситуацию в комментариях. В этом смысле это еще одно, тысячное по счёту, подтверждение, что игры обычно выступают носителем информации, но не самой информацией. Хороший пример - Fortnite, который может работать как игра, а может заменять собой концертный комплекс.

Minecraft живее всех живых. Количество комментариев в 2020 году резко выросло и в выдаче по запросу, и на отдельно взятом канале. В последнем случае мы имеем полные данные по всем комментариям канала (n=all), то есть практически точный результат. Формирование ядерного сообщества на канале тоже происходит в этот период.

Косвенное, но важное наблюдение: спутники главного ведущего - это всегда большая тема. Практически, как спутники Доктора в "Доктор Кто" - все любят это обсуждать.

Наконец, если сопоставить резкий рост комментариев и формирование ядерного сообщества, то наш исследовательский вывод будет следующим: чем больше в выборке роликов с большим пересечением по комментаторам, тем быстрее в ней идет рост числа комментариев и тем ролики значимее по пейджранку. Простыми словами - 10 тысяч преданных комментаторов развивают ютуб-канал лучше, чем 100 тысяч случайных людей из интернета.

Возвращаясь к метафоре Саргассова моря, мы можем попробовать теперь отыскать подтверждение нашей гипотезы в более локальных сообществах FNAF и Hello Neighbor. В этом смысле они гораздо интересней безбрежного майнкрафта, поскольку позволяют показать на данных рост своей виральности (=популярности) и, быть может, дать картину следующей "внезапной игры", которая уже дико популярна у 7-летних, но пока неизвестна людям из внешнего мира.

3K3K открытий
84 комментария

Комментарий недоступен

Ответить

Ой, да ладно
Мы в детстве тоже всякую херню смотрели. Не в интернете, так по телевизору.
Про русский рэп вообще молчу.

Когда ты мелкий, нет ни вкуса, ни понимания. Потребляешь все подряд.

Ответить

Согласен, Мистер/мисс Макс/Кэтти, Навальный, Шевцов, Перепечный, какой то бумага (надеюсь не туалетная) и прочая шелупонь для имбецилов.
По итогу у них мозги засранны так, что прозвище малолетние умники даже близко не отображает степень их деградации.

Ответить

Выскажу непопулярное мнение - но, если убрать из статьи тонну метафор, то текст можно было бы сократить вдвое, и при этом мысль бы удалось передать лучше. Например, вот такое предложение:
То есть в своем анализе мы очень часто будем нарушать заповедь про то, что корреляция не означает каузальности - может и не означает, но вот те, кто живут в этом доме, в самом деле чаще попадают в страховые ситуации на дороге, поэтому есть смысл им, неудачникам, стоимость страховки поднять.

Ответить

Согласен, честно бросил читать примерно на том, когда в топ выборки попал Егор Крид... Для меня вся техническая выжимка статьи утонула в воде, которой позавидовала бы каждая вторая дипломная работа xD

Ответить

Мне все время пока читал не отпускало чувство, что вроде что-то интересное читаю, но интересно все никак не становится. А выводы вообще невнятные какие-то.

Ответить

Как насчет исследования «Как оценить платёжеспособность аудитории на основе грамматического и орфографического анализа комментариев»?

Ответить