Немного о пользователе Министерство коррупции или Ну как там дела с TEXTAN

Всем привет, меня зовут очень настырный человек и я покажу, как я делал инструментарий для сбора комментариев в чОрный пакет и какие картинки для визуального анализа разработал.

Демку разработанного функционала я решил провести на примере комментариев пользователя Министерство коррупции, для чего я обратился к нему в ЛС за разрешением и согласование получил:

Подумал, что не будет лишним согласоваться с пользователем о визуальном анализе его комментариев. В конце концов, это его труд. <br />
Подумал, что не будет лишним согласоваться с пользователем о визуальном анализе его комментариев. В конце концов, это его труд.

Для визуализации картинок предварительно нужно было собрать комментарии пользователя. Собирал почти 40 минут, получилось 45640. Сначала я предположил, что это комментарии за все годы жизни Министерства коррупции, но заглянув в профиль, увидел, что на DTF он пришёл относительно недавно - 9 октября 2022 года.

Ниже по подзаголовкам я расположил графики, построенные по его комментариям. Итак, поехали:

№1 Количество комментариев по дням календаря

Если кто знаком с Github, то знает, что там есть календарь активностей в Гитхабе у каждого пользователя -- можно посмотреть сколько коммитов в код делает тот или иной разработчик. Я решил, что будет интересно построить такой же график для комментариев DTF.
Министерство коррупции - это мощь:

Обратите внимание на цветовую шкалу - чем темнее квадратик календарного дня, тем больше комментариев написано в этот день. Самые темные квадратики соответствуют примерно ~600 комментариев в день! Это афиг ваще.<br />
Обратите внимание на цветовую шкалу - чем темнее квадратик календарного дня, тем больше комментариев написано в этот день. Самые темные квадратики соответствуют примерно ~600 комментариев в день! Это афиг ваще.

№2 Количество комментариев по часам дня

Следующий график - это гистограмма количества комментариев по часам от нуля до 23, когда писался комментарий. Получилась кумулятивная такая штука, которая показывает, в какие часы в среднем пользователь активен.
Министерство коррупции спит очень мало:

Немного о пользователе Министерство коррупции или Ну как там дела с TEXTAN

№3 Количество комментариев по часам дня помесячно

Предыдущий график получился слишком агрегированным, т.к. он построен по всем комментариям. Что если строить точно такую же гистограмму, но в рамках отдельно взятых месяцев? Это даёт больше визуальной информации, как менялась активности Министерства коррупции от месяца к месяцу:

Оси не подписаны, сорри, исправлю в следующих релизах. Министерство коррупции, ты вообще не спал в марте, как так?<br />
Оси не подписаны, сорри, исправлю в следующих релизах. Министерство коррупции, ты вообще не спал в марте, как так?

№4 Количество комментариев по их длине в символах

В этом графике я захотел посмотреть, как распределены все 45640 комментариев Министерства коррупции по длине текста в них. Насколько средняя длина комментариев больше, чем 140 символов Твиттера?

Результат в целом характерен для каждого пользователя DTF. Видим две моды. 1 мода - это короткие односложные ответы длиной в 1-2 символа и вторая мода в районе 20 символов. Лонги никому не нужны в комментариях, поэтому их исчезающе мало после 200 символов<br />
Результат в целом характерен для каждого пользователя DTF. Видим две моды. 1 мода - это короткие односложные ответы длиной в 1-2 символа и вторая мода в районе 20 символов. Лонги никому не нужны в комментариях, поэтому их исчезающе мало после 200 символов

№5 Текстовый анализ комментариев (тот самый TEXTAN)

Гистограммы это хорошо, но что в этих комментариях пишется - подумал я. И решил попробовать построить облако слов по комментариям. Сразу скажу, это нифига непросто, учитывая многообразие слов в нашем замечательном русском языке. Но что удалось мне сделать, показываю ниже:

Это 15 самых популярных слов по текстовому анализу всех комментариев Министерства коррупции. Тут есть <b>ДТФ </b>и <b>женщина</b>!<br />
Это 15 самых популярных слов по текстовому анализу всех комментариев Министерства коррупции. Тут есть ДТФ и женщина!

Дальше я решил очистить комментарии от предлогов, союзов, частиц и междометий в ожидании, что это добавит больше значащих слов в облако.
Вот что получилось:

Отфильтровано от предлогов, союзов, частиц и междометий<br />
Отфильтровано от предлогов, союзов, частиц и междометий

Результат меня не очень впечатлил, и я решил отфильтрованный текст привести к нормальной форме. Нормальная форма - это когда слова "игры" и "игр" приводятся к одному слову "игра". Для некоторых частей речи нормальную форму слова определить невозможно, поэтому они выкидываются из облака слов. Вот что вышло:

Немного о пользователе Министерство коррупции или Ну как там дела с TEXTAN

Заморочился ещё, и из отфильтрованного приведенного к нормальному виду текста я построил облака слов по существительным, прилагательным и глаголам:

Облако слов по нормальной форме существительных. Человек, мужчина, женщина - Министерство коррупции активно интересуется всем, что связано с людьми, судя по облаку слов!<br />
Облако слов по нормальной форме существительных. Человек, мужчина, женщина - Министерство коррупции активно интересуется всем, что связано с людьми, судя по облаку слов!
Облако слов по нормальной форме глаголов. Знать, любить, писать, хотеть - по-моему, это крутые глаголы!<br />
Облако слов по нормальной форме глаголов. Знать, любить, писать, хотеть - по-моему, это крутые глаголы!
Облако слов по нормальной форме прилагательных. Хороший, свой, большой, красивый - прекрасные прилагательные, на мой взгляд!<br />
Облако слов по нормальной форме прилагательных. Хороший, свой, большой, красивый - прекрасные прилагательные, на мой взгляд!

В заключение хочу написать, что буду рад, если дадите обратную связь по построенным графикам - было ли вам это интересно, видите ли в этом ценность? Так же буду признателен лайкам, репостам, и - чего уж скрывать - любой финансовой помощи на продолжение дела аналитики на DTF.
У меня нет цели зарабатывать на этом, но вообще, если общая сумма сбора превысит овер 9000 (да, это не попа кокоса), то я опубликую в открытый доступ весь код, которым я это собирал\строил. Так же хочу сказать, что это даст мне мотивацию быстрее сделать полностью автоматизированную цепочку обработки данных, которая на выходе будет выдавать PDFку с этими картинками на каждого пользователя. Выбор за вами, уважаемые донатеры!

Хочу отдельно отметить, что такой инструмент на ваших комментариях будет хорошо работать, только если у вас достаточно много комментариев. Если вы сидите ридонли, то о вас никто никогда не узнает, понятное дело.Если у вас есть ещё идеи по визуализации графиков, пишите, рассмотрю любые предложения.
#textan #dtf #министерство_коррупции

КПДВ
КПДВ
126126
61 комментарий

Зашёл только из-за картинки

43
Ответить

Anna Ralphs, не благодари

35
Ответить

Комментарий недоступен

6
Ответить

Чорт, ты почему не спишь по ночам?

1
Ответить

по моему на этой картинке все прекрасно

9
Ответить

"Просто нужно пиздец очень женщина. Почему люблю хуй." Этим всё сказано.

6
Ответить