Анализ постов и подсайтов DTF по открытым данным

На DTF более 120000 постов, 309 подсайтов (из них 3 скрытых), половина всех постов содержит меньше одного абзаца текста, а самый большой лонг — 200000 символов. Правда ли, что DTF — это площадка для продвижения интересов Sony? Правда ли, что лонгов становится меньше? Мемы и щитпосты убивают DTF? Попробуем разобраться.

Анализ постов и подсайтов DTF по открытым данным
44 показа
8.1K8.1K открытий
66 репостов

Клёво, люблю такие разборы. Я сам когда-то таким увлекался на TJ, когда он был возраста DTF. Вот, если интересно
https://tjournal.ru/flood/18658-tj-kak-virus-ili-zapozdalyy-otvet-vladu-cypluhinu-2

Ответить

Хотелось бы, однако, вставить свои замечания и пожелания

1. Вы утверждаете в нескольких местах экспоненциальный рост. Неплохо было бы чем-то подтверждать. Не обязательно делать аппроксимацию, но можно хотя бы взять ось ординат в логарифмической шкале, как это делают в вузах на лабах. Тогда можно увидеть, что, например, рост количества новых комментариев за неделю вырождается из экспоненциального в линейный.

Зачем это делать? На первый взгляд не так важен характер роста: экспоненциальный, степенной или вообще линейный - растёт и ладно. Однако в особенностях роста иногда спрятана специфичная информация о системе. Вам это может и не нужно, но тому, кто соберётся делать прогноз на основе ваших данных, вполне пригодится.

2. Графики с распределением длины постов станут лучше восприниматься, если вы поменяете оси местами, а точки когорт представите в виде столбцов. Примерно так, как у вас дальше с временным распределением. Я потратил определённые усилия, чтобы понять, про что график, а ширина когорты так вообще стала понятна только из таблицы.

3. Число чего угодно за период времени, как вы и так наверное знаете, это адаптация производной на дискретный случай. Однако, здесь многое зависит от размера периодического окна.

Подбирать его нужно в первую очередь ориентируясь на временные масштабы изучаемой системы. Если окно будет слишком большое, можно потерять локальные тренды. Если слишком маленькое - потерять аналитичность и информативность.

Неделя - это хороший вариант. Но попробуйте ещё день. Иногда вылезают интересные результаты.

Ответить