Первое, что я сделал, это удалил дубликаты по двум признакам: автор и время создания. Очевидно, что один человек не сможет запостить два коммента одновременно, если это, конечно не баг. Конечно, в наборе есть тёзки, и вполне возможно, что они комментировали одновременно. Но здесь проблема в том, что в таблице комментариев указан только ник автора, а не его ID. Придётся смириться с этим и предположить, что тёзок мало, чтобы повлиять на статистику. Другая причина в образовании дубликатов — ошибки при выгрузке данных через API. Таким образом, после очистки датасет незначительно уменьшился до 2912335 строк.
@Карасик
Привет! Статья просто пушка бомба, очень много незнакомых мне слов, и это отлично
Могу кинуть ссылку на датасет с 25 миллионами комментов и постов, если все таки возьмёшься за это)
Если захочешь прям заняться, то могу попробовать выгрузить вообще со всеми параметрами, с количеством лайков на комменты, и кстати, с удаленными постами и комментами. Теоретическая возможность есть, просто займет больше времени.
По сути и пол года описывают +- те же закономерности, просто где-то больше, где-то меньше.
Если ты шаришь за машинное обучение и т.д., буду очень рад помощи или кооперации в дообучении модели на комментах. Очень хочется сделать ИИ-дтфера
А уровень токсичности уже исследовал @Инфернальный гавноед
Круто, но ты бы пояснял что ли для гуманитариев и прочих далёких...
А то вот приводишь ты факт, описывая график:
На картинке видно, что по длительности комментариев и её разбросу пользователи образуют примерно вытянутое однородное облако с небольшим хвостом рассеяния в области малых значенийНо никак это не анализируешь. Что это значит? О чём свидетельствует? Не понятно нифига.
Короче сорян, но статья не понравилась в итоге. Да, круто, работа проделана, но ты просто описал графики, никак их не проанализировав. "Вот смотрите тут пик в районе 4 показателя" — ну ок, это я итак вижу. И?
Ну или я настолько тупой, что не понял ничего.
За старания лайк, но: поработай над структурой текста. Очень тяжело читать такие объёмы без какого-то разделения
Да, получился скорее техрепорт
мне надо было бы избавиться от них — это выбросыИ в чём автор не прав ))