Немного Виабу-аналитики за февраль

Аналитический щитпост с некоторым количеством графиков и цифр, а также моими праздными рассуждениями. По мотивам публикации об итогах февраля подсайта Виабу.

Оглавление

  • Введение
  • Общие показатели
  • Пользователи
  • Публикации
  • Заключение

Введение

Цель данного поста - дополнить и визуализировать результаты, опубликованные в официальном.

Откуда и каким образом были получены данные? DTF сделан на платформе "Основа" (далее - Очоба), как и несколько других сайтов издательского дома "Комитет". Очоба имеет свой открытый API, также есть документация (хотелось бы более подробную, но уж какая есть).

Я написал небольшой скрипт на Python, который возвращает список статей (в JSON формате) из подсайта в порядке их публикации и записывает их в csv-файл. Затем полученные данные были обработаны в отдельном Jupyter Notebook'е с использованием библиотек pandas, numpy, matplotlib и seaborn.

Важно отметить пару моментов. Во-первых, результаты моих исследований немного не сошлись с официальными. Основная причина в том, что данные для исследований я выгрузил из DTF'a 01.03.2021, ровно в 12:00. К тому же, возможно, часть погрешности вызвана несовершенством моих методик подсчёта. Впрочем, это не играет особой роли, поскольку относительная погрешность расчётов не превышает 1.8%.

Во-вторых, анализировалось только содержимое и показатели постов (кол-во просмотров, комментариев, лайков, символов и медиаконтента и т. д.).

Итак, официальная часть наконец-то завершена и мы можем перейти к самому интересному!

Общие показатели

Все данные были разбиты на две категории: с учётом репостов и без. В любом случае я буду уточнять, учитывались ли репосты при построении визуализаций или нет.

605
Общее количество постов за февраль

Из них: 518 статей подсайта и 87 репостов.

Виабу - это преимущественно оригинальный контент! В рамках сайта, разумеется.
Виабу - это преимущественно оригинальный контент! В рамках сайта, разумеется.
114
Уникальных авторов опубликовали свои статьи

Из них 90 - в подсайт. Остальные - репосты.

7238
Общее количество комментариев под публикациями за февраль

Из них: в статьях подсайта - 4464, в репостах - 2774.

Очевидно, что в феврале было что обсудить.
Очевидно, что в феврале было что обсудить.
218695
просмотров статей за февраль

136519 - у статей подсайта, а 82176 - у репостов.

Немного Виабу-аналитики за февраль
8327
добавлений статей в закладки

5775 у статей подсайта и 2552 у репостов.

Немного Виабу-аналитики за февраль

И, наконец, один из самых популярных показателей - лайки!

23061
всего лайков за публикации в феврале

18491 за статьи в подсайте, 4570 у репостов.

Вот здесь и появляется первое серьёзное расхождение с официальной статистикой. Полученные мною значения учитывают также удалённые посты, поскольку они не стираются полностью из базы Очобы, а удаляется только их содержимое, количественные показатели сохраняются и они всё так же висят в ленте подсайта.

Лайки есть лайки, но, чтобы быть до конца честным, я уберу удалённые статьи из расчёта и тогда получится:

22450
всего лайков за публикации в феврале с учётом поправки на удалённые статьи

18087 за статьи в подсайте, 4363 у репостов.

И всё ещё есть расхождение с официальной статистикой - по моим расчётам лайков статей подсайта на 326 больше
И всё ещё есть расхождение с официальной статистикой - по моим расчётам лайков статей подсайта на 326 больше

В таком случае необходимо произвести перерасчёт и остальных, ранее расмотренных показателей! Но, увы, не в этот раз.

Просто скажу, что погрешность, внесённая удалёнными статьями в показатели просмотров, добавлений в закладки и комментарии составляет не более 1.4% для каждого показателя.

Тем более, что я считаю, что "фарш невозможно провернуть назад" и раз уж удалённые посты были просмотрены и прокомментированы, то их уже не развидеть и не откомментировать.

На этой лирической ноте предлагаю дальше рассматривать лайки. Посмотрим, каково распределение лайков у постов.

Немного Виабу-аналитики за февраль

Итак, лайки за публикуемые статьи, вне зависимости то того репост это или статья подсайта, имеют логнормальное распределение с длинным правым хвостом. Медиана: 33 для левого и 38 для правого графиков соответственно. Таким образом, большая часть статей имела рейтинг от 20 до 50. Имеются заметные выбросы - посты-аномалии, имеющие необычно высокие показатели лайков. Чуть позже мы их рассмотрим.

Немного посмотрим на временные ряды! На графике представлено количество публикуемых статей посуточно.

Не обращайте внимание на цвет столбцов - палитра выбрана так, чтобы график не смотрелся уныло.
Не обращайте внимание на цвет столбцов - палитра выбрана так, чтобы график не смотрелся уныло.

Какой-то явной закономерности выявить не удалось. Из очевидного: сильно выделяются 8-е и 26-е февраля, а также 5-е, 17-е и 22-е. Были проанализированы посты за указанные (и смежные) числа, но выяснить причину подобных резонансов и спадов не удалось.

Немного Виабу-аналитики за февраль

Каких-то явно выраженных отклонений от среднего значения на графике нет. В понедельник чуть больше постов, в выходные - чуть меньше.

И в заключение посмотрим на пару важных количественных показателей:

234911
символов суммарно во всех публикациях за февраль
3652
единиц медиаконтента (картинки, видео, аудио) во всех публикациях за февраль

Чтобы представить это великолепие взглянем на диаграмму рассеяния:

Немного Виабу-аналитики за февраль

Сложно сделать какие-либо далекоидущие выводы, основываясь на этой визуализации. Можно отметить, что есть как минимум 3 группы:

  • около начала координат - там расположены посты-мемы
  • вертикально расположенное облако точек с околонулевым значением абсциссы - это подборки медиаконтента
  • горизонтально расположенное разрозненные точки - это преимущественно текстовые статьи

Количество лайков, указанное в легенде графика - ориентировочное, т. е. чем темнее точка, тем больше лайков. Как видно из графика, наиболее тепло в этом месяце были приняты статьи-подборки, но не обделены вниманием и текстовые посты.

Пользователи

Теперь посмотрим, кто опубликовал наибольшее количество постов, без учёта репостов. Встречаем победителей!

Извини, Digo. При импорте изображения твой аватар бинаризировался. Я пока не придумал как это пофиксить.
Извини, Digo. При импорте изображения твой аватар бинаризировался. Я пока не придумал как это пофиксить.

Таким образом получается, что:

30.12 %
от общего количества контента создают топ-3 авторов по кол-ву публикаций

Дополнительно стоит взглянуть кто принёс своими постами больше всего рейтинга сообществу, опять же, без учёта репостов.

Теперь бинаризировался ещё и аватар mora mora, прошу прощения. Также в топе присутствует и удалённый аккаунт Hikka. Количество рейтинга, на мой взгляд, очень иронично. 
Теперь бинаризировался ещё и аватар mora mora, прошу прощения. Также в топе присутствует и удалённый аккаунт Hikka. Количество рейтинга, на мой взгляд, очень иронично. 
41.28 %
рейтинга принесли сообществу топ-5 авторов по количеству рейтинга

Впечатляет!

Публикации

Пришло время разобраться с публикациями. Будем рассматривать топ-10 публикации по различным показателям. Репосты не учитываются.

Немного Виабу-аналитики за февраль
Немного Виабу-аналитики за февраль

Из необычного можно отметить сильный отрыв топ-1 от топ-2. Остальные претенденты шли достаточно ровно.

Немного Виабу-аналитики за февраль

А в этом случае помимо отрыва топ-1 от топ-2 также заметен отрыв топ-2 от топ-3.

Немного Виабу-аналитики за февраль

В этом случае ничего примечательного, все претенденты шли достаточно ровно.

Теперь рассмотрим топ постов по различным категориям. На данный момент разделение по категориям мной было проведено на основе тривиальных критериев, а именно:

  • Одна единица медиаконтента в статье (неважно что: видео, аудио, картинка) - это пост-мем
  • Более 5 единиц медиаконтента в статье - это подборка
  • Количество символов превышает 2000 - это лонгрид

Не лучший вариант, но лучше, чем ничего. ( ° ʖ °)

Итак, топы:

Немного Виабу-аналитики за февраль
Немного Виабу-аналитики за февраль
Немного Виабу-аналитики за февраль

В завершении хочется привести пару лирических отступлений.

Первое. Если бы учитывались репосты, то картина выглядела бы кардинально иначе.

Евангелион, Киберпанк, отголоски неприятного скандала во всех его проявлениях, интервью с Kurisu, инициатива по поддержке авторов лонгридов от Андрея Апанасика, удалённые статьи Hikka по Steins;Gate и немного тематических статей из подсайта - вот, что содержал бы топ, если бы учитывались репосты.

Второе. Очень жаль, что Hikka удалил свой аккаунт, поскольку топ выглядел бы несколько иначе, а именно:

Да, это была именно та статья по Steins;Gate. И, помимо прочего, это была одна из тех статей-аномалий на распределении на 6-й диаграмме в первом разделе настоящей статьи.

Заключение

В результате анализа можно сделать вывод: Виабу - это динамично развивающееся сообщество. В феврале было немало постов, но меньше, чем обычно. Об этом свидетельствует хотя бы вот этот график.

Да, это спойлер одной из следующих статей - будем анализировать временные ряды, связанные с характеристиками статей в Виабу и даже предсказывать будущее!
Да, это спойлер одной из следующих статей - будем анализировать временные ряды, связанные с характеристиками статей в Виабу и даже предсказывать будущее!

Но, судя по всему, в скором времени нас ожидают новые интересные активности! Будем ждать с нетерпением!

P. S.

Во время анализа данных проводился расчёт основных статистических показателей для переменных. Однако я посчитал нецелесообразным приводить полученные значения, поскольку сами по себе они не имеют практического смысла. Их нужно интерпретировать совместно с этими же показателями, рассчитанными для других месяцев. Указанное исследование выходит за рамки настоящей статьи и будет проведено в будущем. =)

А ещё в редакторе отсутствует возможность создавать таблицы. Возмутительно! Как же так?

На данный момент есть ещё пара идей для того, что можно проанализировать. Предлагайте свои варианты в комментариях и я постараюсь включить их в следующие статьи. Если вам это вообще интересно, конечно. ( ° ʖ °)

5757
21 комментарий
300 ₽

Пока я жду очередную порцию ♂deep dark♂ аналитики от @Евгений Приходько , доначу тебе ♂300♂.

8
Ответить

Комментарий недоступен

10
Ответить

Комментарий недоступен

10
Ответить

Если это "официальный запрос", то в пределах 40 рабочих дней можно будет что-нибудь придумать! =) 

5
Ответить

Комментарий недоступен

13
Ответить

Спасибо! Я очень рад, что подобный пост зашёл сообществу. 
Ну, прибедняться тоже не стоит, потому что твой пост мне тоже очень понравился. Лаконично и по делу, да и оформление лучше. =)

3
Ответить