Я собрал и провел анализ 3 млн. комментариев на DTF

И готов выдать вам интересную статистику. Кто сколько матерится, сколько комментариев удалили модеры, а так же обращение к самой Модерации.

Я собрал и провел анализ 3 млн. комментариев на DTF

Всем привет! Я собрал 2 913 273 комментария с нашего любимого сайта и захотел узнать много всякого интересного. В одном моменте я подтвердил прошлые статистики, а некоторые вы увидите впервые!

Дисклеймер: Мы тут не претендуем ни на какую точность. Я институтов не кончал, а Power BI запускал в первый раз. Данные могут расходиться с реальностью до 10% (в том числе и из-за API площадки, что будет описано в статье). Среднее по больнице +- точное. За дизайн - извините. Ну и да, я "вдохновлялся" Инфернальным Гaвнoедом, и что вы мне сделаете, а?

Содержание

Предисловие. Борьба с API

API DTF — это весело (не очень). Сам я раньше с API плотно не работал, кроме VK, документация которой божественна, но мои более опытные друзья очень бомбили с его структуры. Пришлось немного покувыркаться, чтобы сделать скрипт автоматизированным.

Обращаюсь к Модерации DTF. Может вы уже обновите документацию?!

Во-первых, у вас уже есть версия API v3.0, но ссылка ведёт на Swagger 1.9 (почему хотя бы не 2.31?), а спецификации ссылаются на 404...

На версию 2.31 ссылки нормальные ("документация" и Swagger).

Ну и во-вторых, почему нельзя сгенерировать новый токен разработчика в своем профиле? Что мешает сделать ее? Это будет ИМХО много лучше, чем пользоваться только методом из API.

GET-запрос комментариев в принципе логичный. За один раз отдается определенное количество комментов, чтобы не нагружать сайт, а чтобы получить следующую пачку — в запросе нужно указать айдишник последнего комментария в запросе. Нормально, разобрались.

Но со сбором комментариев возникли проблемы, не все они были сохранены. Я оставил на ночь скрипт, он спокойно себе шуршал, но раз в час-полтора он начал проскакивать, причем нормально так, по 8-10 постов за каждую итерацию (примерно пол минуты), в которых может содержаться куча комментариев. Некоторые посты он не мог обработать, причем не из-за того, что они недоступны, а походу сайт просто не мог обработать запрос лол. Я уменьшил количество запросов до 2 в секунду (было 3, согласно требованиям из документации), но ситуация не поменялась. В общем от 5% до 15% комментов я потерял, ну, спишем на погрешность расчетов.

В общем очень прошу руководство DTF разобраться со своим API. Допилить напильником, убрать 404, и все вот такое.

Кто больше всего написал?

Итак, были обработаны данные примерно за пол года — с 17 сентября 2023 года по 5 марта 2024 года. Было собрано 2 913 273 со всех постов за этот период, которые смогли пропарсится, благодаря кривому API.

В статистику попало 20 478 аккаунтов.

Количество активных авторов, пишущих в среднем хотя бы один комментарий в день — 3 559.

Судя по содержанию комментариев, "Аккаунт заморожен" - это Vino. Упокой душу его аккаунт.
Судя по содержанию комментариев, "Аккаунт заморожен" - это Vino. Упокой душу его аккаунт.

Что ж, поздравляем Ник СЦК с самой большой активностью! За это время он написал примерно 20500 комментариев, почти 1% от всех комментов за пол года, это в среднем 120,5 комментариев в день на протяжении полугода! Это уважаемо. Так щитпостить в комменты — это надо постараться. Я сначала подумал, что это ошибка парсинга, но что-то не верится, он на DTF зависает часто.

На втором месте — наш любимый Gvizdon оголтелый консерватор (aka Gvizdon прятался, aka Gvizdon wet boy, aka.... ХВАТИТ МЕНЯТЬ ИМЕНА, Я УЖЕ ЗАДОЛБАЛСЯ РЕДАЧИТЬ) с 16807 комментов! Это 99 комментов в день! Действительно неплохо.

Ну и на 3 месте самая красивая девочка этого сайта — Обаче с 7383 комментами, это 43 коммента в день (по такому же расчету)!

Количество повторяющихся комментариев. Пустое первое место — гифки/картинки/видео, их закинули под посты примерно 85 000 раз за пол года.

Я собрал и провел анализ 3 млн. комментариев на DTF

На втором месте — кровавая ГЕБНЯ. Модераторы удалили примерно 74 000 комментариев, это 2,5% от общего количества. БОЛЬШОЙ БРАТ СЛЕДИТ ЗА ТОБОЙ!

Ну а сами авторы за пол года удалили примерно 8 000 своих комментариев, а в чем-либо участвовали примерно 6 000 раз.

Комментарии в датах

По самой свежей аналитике, которую я нашел, посты стоит выкладывать с утра в будние дни. Собственно, могу уточнить и подтвердить ее. Самая большая активность пользователей в комментариях наблюдается в среду-четверг, а самая низкая — в воскресение. Самый низкий пик в принципе очевиден — это 1 января.

Я собрал и провел анализ 3 млн. комментариев на DTF

Судя по этому посту, активность на DTF снижается, но по комментариям этого не видно, никакого спада нет, наоборот. Среднее количество комментариев с сентября 2023 по март 2024 увеличилось на чуть более чем 9%. Могу предположить, что на площадку стало заходить меньше незарегистрированных и/или ридонли пользователей.

На следующем графике сумма всех комментариев распределена на сутки, от 0 до 23 часов по UTC.

По московскому времени график выходит на плато с 11 утра и снижается с 23 часов
По московскому времени график выходит на плато с 11 утра и снижается с 23 часов

Детализация за октябрь. В среднем во всех месяцах больше всего комментариев пишется на третьей неделе месяца, почему-то. Графики на всех месяцах +- схожие, в зависимости от того, на какие числа выпадают выходные. Исключение — январь, где пик приходится на первую неделю месяца.

Я собрал и провел анализ 3 млн. комментариев на DTF

Список сапожников

Вы мои матершинники. Вас много, и материтесь вы много!

Отбор проводился по самым популярным матерным словам, а точнее по их корням. Скрипт находил содержание этих корней (с вашего позволения не буду тут материться), и выдал список. Power BI падал от сканирования всех вариантов матюков, так что статистика может быть (и является) не совсем полной.

Дисклеймер: Power BI падал при попытке найти содержание 20 значений в каждом из 3 млн. комментов, поэтому в графике меньшее количество авторов, чем на других. Извините(

В абсолютном количестве матерных слов снова побеждает Ник СЦК, причем с большим отрывом, но только потому, что у него большой отрыв и в количестве комментов за период.

Я собрал и провел анализ 3 млн. комментариев на DTF

Кстати, Granger ни разу не матерился. А за пол года ДТФеры упомянули сосиски в комментариях около тысячи раз. Это так, забавный факт.

В процентном соотношении, что более справедливо, победитель совершенно другой, и это Hungry Evok. Комментариев всего у него 1588 за пол года (~10 комментов в день), а сматерился он в целых 49% случаев. За ним следует Roanoac (2095 комментариев) с 40% матерных комментов, а за ним — пивной барон Габедан Прайз (4032 комментария) с 30%. Красивые цифры получились! Самый активный комментатор Ник СЦК (напомню, рекордные 20478!!!!! комментариев) матерился в 25% случаев.

Я собрал и провел анализ 3 млн. комментариев на DTF

Комментаторы-пикчеры

Есть отдельная категория пользователей, которые любят общаться картинками, а не буквами. Победитель очевиден, и это Evil metadodic!

Я собрал и провел анализ 3 млн. комментариев на DTF

На втором месте — человек С, адепт Метадодика, вероятно копирует своего кумира, ну и на третьем месте самый лучший пупсик этого сайта — День РЖД!

GenderBot технически на втором месте, но его не учитываем. Он, как ни странно — бот. Считайте, что это статистика, сколько раз его вызывали.

Ваши гифки бесценны!

Комментаторы-лонгеры

Кто-то пишет лонги по играм, а кто-то пишет лонги в комментариях. Встречаем победителей!

Я собрал и провел анализ 3 млн. комментариев на DTF

Первое место занимает Rucama Nuqavan aka «Шитпостер с DTF», второе почетное место достается фармеру плюсов исключительно на комментах Павлу Казьмину, а третье — Don-grafon. Поздравляю!

Количество упоминаний модерации

Этот график НЕ ПОКАЗЫВАЕТ именно призыв модерации в комменты. В него включены и простые упоминания, так сказать вспоминали "добрым словом" Модерацию, Шерифа и Рейнджера.

Я собрал и провел анализ 3 млн. комментариев на DTF

Ярослав каким-либо образом упоминал модеров 45 раз, KekW — 33 раза, а Nick Ran — 31 раз.

Всего вызывали через тег Модерацию, Шерифа или Рейнджера всего лишь 24 раза за пол года. Странно мало. Но скорее это ошибка в моих расчетах.

Заключение

Напомню, что это мой первый опыт анализа чего-либо, так что данные могут быть ох какими неточными, но мы тут и не претендуем ни на какую истину. Графики не самые красивые, но для первого запуска Power BI - сойдёт.

Надеюсь, вам было интересно узнать немного интересных фактов о DTF. Мб через еще пол годика соберу такую же статистику, и снова порадую вас красивыми (или не очень) графиками.

Отмечайте победителей в комментариях, пишите свое мнение насчет результатов, уважайте и любите друг друга, и хорошего дня!

P.S.

Если хотите узнать статистику по себе, или поправить или расчеты, качайте из Microsoft Store программку Power BI и берите этот файлик. В каждом графике я оставил фильтр по авторам (во вкладке Фильтры), найдете там себя. Но будьте готовы к тому, файл кривоват, напомню, я запускал такое ПО впервые.

Если хотите составить свою аналитику с нуля или еще чего - держите SQLite3 базу.

Если вы вдруг хотите меня как-то отблагодарить (кроме, как за щеку), дайте знать.

Все комментарии были взяты из открытых источников средствами API DTF v2.31.

858858
11
537 комментариев

Ник ты че ебанутый?

297

До вас только начало доходить? кекус

136

Забыл на каком сайте находишься?

1

С этой пикчи орнул конечно

166