Сталкер в числах

В общем, мне немного было скучно, я решил скачать комментарии к знаменитым постам про Сталкера и сделать свой первый длиннощитпост.

Это многое говорит о нашем сосаети
Это многое говорит о нашем сосаети

Важно 1 (!)

Я догадываюсь, что под этим постом может начаться срач, как и под многими другими постами про Сталкера, но пожалуйста — не надо. Если хотите пообсуждать политику — у вас для этого полным-полно других ресурсов. Здесь же я хочу просто чиселки показать.

Важно 2 (!)

Я простой бэкендер, а не аналитик данных, поэтому прошу сильно не ругать за мой быдлоанализ. Если будут комментарии что можно добавить — буду благодарен. А если ещё и найдутся аналитики данных, которые смогут действительно интересный анализ постов про Сталкера сделать, то вообще огонь.

Входные данные

Изучал я вот эти три поста:

Из них я скачивал комментарии через следующий гет-запрос:

https://api.dtf.ru/v2.3.1/comments?contentId={idстатьи}&sorting=all

Кому интересно самому скачать комментарии — качайте, никаких токенов для этого не нужно. Причём можно даже просто через браузер открыть.

Посты далее будут именоваться как «Пост #1”, «Пост #2" и »Пост #3» соответственно. Итак, начинаем.

Сколько всего было оставлено комментариев?

Эти числа актуальны на момент написания статьи (где-то 12 часов ночи 18 марта)

Таблица с числом удаленных и оставшихся комментариев
Таблица с числом удаленных и оставшихся комментариев

Тут вывода можно сделать два — людям со временем надоел весь этот срач и охуеть — в первом посте выживших меньше, чем убитых.

Когда было оставлено больше всего комментариев?

Я не уверен в этом, так как документации нормальной нет, но: у каждого комментария есть поля date и lastModificationDate и я предполагаю, что в поле lastModificationDate может быть указана дата удаления комментария, так как их текст при удалении меняется на “Комментарий был удален модератором”. И дальнейший анализ строится на этом предположении, которое может оказаться ложным (может создатели дтф не меняют текст комментария в базе, а просто для комментариев, где IsRemoved=true, возвращают эту фразу вместо оригинального текста. Было бы интересно услышать комментарии разработчиков)

На графиках ниже показано количество оставленных комментариев по часам.

На следующих графиках красным цветом показано количество удаленных комментариев по часам (на основе упомянутого раньше предположения)

Из них можно понять, насколько ненормированный график у модерации.

Какие я могу сделать выводы из этого?

  • Первый пост сам по себе стал инфоповодом благодаря огромному количеству вовлеченных людей, но при этом сама тема срача на тему политики всем очень быстро наскучила и поэтому под следующими постами активность была гораздо меньше, также как и количество удаленных комментариев.
  • Количество удаляемых комментариев под вторым и третьим постом на старте было гораздо меньше — можно сделать вывод о том, что люди стали аккуратнее с высказываниями, попадающими под 1.9.
  • Модерация работает круглосуточно(((

Самые популярные слова

Собственно, идея данного поста мне пришла благодаря вот этому комментарию о том, какие слова там чаще встречаются:

Надо было сразу скриншотить исходный комментарий(
Надо было сразу скриншотить исходный комментарий(

Но под 1.9 я не хочу попасть, поэтому ответ на вопрос в недоступном комментарии дан не будет.

Но вот списки самых популярных слов под постами без всяких «и«, "а", "но", »в» и т. п., а также без упоминания стран, национальностей и слов, байтящих на политоту, так как не считаю это уместным. Могу лишь упомянуть, что, к сожалению, они одни из самых часто встречающихся слов, политологи хуевы.

Самые популярные слова под постом #1

  • Слово «комментарий» встречается 3255 раз.
  • Слово «модератором» встречается 3235 раз.
  • Слово «удален» встречается 3235 раз.
  • Слово «язык» встречается 134 раза.
  • Слова «игру»/«игры» встречаются 131/126 раз.
  • Слова «сталкер»/«сталкера» встречаются 62/56 раз.
  • Слово «озвучку» встречается 53 раза.
  • Слово «локализацию» встречается 36 раз.
  • Слово «дтф» встречается 36 раз.
  • Слово «похуй» встречается 31раз.
  • Слово «пиздец» встречается 30 раз.

Самые популярные слова под постом #2

  • Слово «комментарий» встречается 1353 раза.
  • Слово «модератором» встречается 1239 раз.
  • Слово «удален» встречается 1239 раз.
  • Слово «недоступен» встречается 108 раз.
  • Слова «игры»/«игра» встречаются 69/33 раза.
  • Слово «дтф» встречается 59 раз.
  • Слово «вк» встречается 49 раз.
  • Слово «сайт» встречается 39 раз.
  • Слово «язык» встречается 33 раза.
  • Слово «лол» встречается 28 раз.
  • Слово «сталкер» встречается 28 раз.
  • Слово «нахуй» встречается 26 раз.

Самые популярные слова под постом #3

  • Слово «комментарий» встречается 181 раз.
  • Слово «модератором» встречается 149 раз.
  • Слово «удален» встречается 149 раз.
  • Слова «игры»/«игру»/«игра» встречаются 93/67/60 раз.
  • Слова «слили»/«слив»/«сливы» встречаются 54/48/22 раза.
  • Слова «дтф»/«dtf» встречаются 40/24 раза.
  • Слово «сюжет» встречается 39 раз.
  • Слово «шантаж» встречается 36 раз.
  • Слова «сталкер»/«сталкера» встречаются 33/29 раза.
  • Слово «спойлеры» встречается 27 раз.
  • Слова «озвучки»/«озвучку» встречаются 24/23 раза.
  • Слово «похуй» встречается 22 раза.
  • Слова «ссылка»/«ссылку» встречаются 21/18 раза.

Лично я могу сделать следующие выводы:

  • Политики действительно пиздец как много было, но к третьему посту её количество сильно уменьшилось. В третьем посте у людей появились новые темы — например, этично ли здесь публиковать ссылки на сливы.
  • Самый популярный текст комментария — “Комментарий удален модератором”.

Насколько ДТФ токсичен?

Теперь самая рандомная часть — при помощи двух нейросетей sismetanin/rubert-toxic-pikabu-2ch и cointegrated/rubert-tiny-toxicity я проверял комментарии на предмет того, являются ли они токсичными или оскорблениями.

Первая модель выдаёт один из двух результатов — токсик или нет — я, соответственно, учитывал токсиков. Во второй интереснее — она классифицирует на non-toxic, insult, obscenity, threat и dangerous — тут я учитывал всё, что не non-toxic. В качестве порога использовал 0.9.

Во всех комментариях я заменял символы переходов на новую строку и т. п. на пробелы, а потом уже загонял на вход нейросетке.

Ниже представлена сводка по количеству токсичных комментариев среди выживших.

Результаты проверки комментариев на токсичность
Результаты проверки комментариев на токсичность

Некоторые комментарии были настолько длинными, что нейросеть их не осилила. Например, вот паста на 3039 символов. Данный пост, к слову, состоит из ~4840 символов.

Примеры комментариев, определенных токсичными ниже на картинках.

(блять, листаю в поисках примеров — там оказывается такие выжившие комментарии, что даже цитировать страшно)

Выводы:

  • Первая нейросеть sismetanin/rubert-toxic-pikabu-2ch делает очень много ошибок, помечая токсичными далеко не самые токсичные комментарии.
  • Вторая нейросеть cointegrated/rubert-tiny-toxicity вполне себе хорошо работает — рекомендую.
  • Редактор статей ДТФ почему-то не сохраняет описания моих картинок с примерами токсичных комментариев.

Заключение

В целом выводы никакие делать не хочу, просто хотел циферками поделиться. Единственное, что хотел бы сказать, статистика по обсуждению Сталкера показывает, что политота в вакууме тут людям не сильно интересна, но если какая-то из сторон её начинает разводить, то другая сторона её с особым энтузиазмом поддерживает. Поэтому хотелось бы попросить модерацию быть аккуратнее, а то ведь шизы реально могут понакидать заяв в РКН и тогда в бан улетит не нагнеталка, а весь сайт.

P. S.

И сделайте, пожалуйста, нормальную документацию, почему я нажимаю в профиле на Инструменты разработчика — API документация, а там половина ссылок — 404 нот фаунд. Причём нормальная документация есть, но до неё фиг доберешься. Отдельная благодарность @serguun42, который рассказал, как найти редок. Реально — API у вас крутая, но отсутствие нормальных гайдов всё руинит.

2929
15 комментариев

Комментарий удален модератором

9
Ответить

Собрал бинго

Ответить

ДТФ познавательный. Я узнал о сетках для определения токсичности.

3
Ответить

Причём там даже программистом не надо быть, чтобы их использовать - всего пара строк и всё само делается

4
Ответить

Порванных - МИЛЛИОНЫ

3
Ответить

Комментарий недоступен

2
Ответить

Ну вот насчет ботов - хз, наверное только администрация может по айпишникам смотреть. Но твинки отлетавших пользователей наверняка были, это да.

3
Ответить