{"id":3975,"url":"\/distributions\/3975\/click?bit=1&hash=7a51e809b58a86b7ea96667de949aaf9244193fd91029f3a3a1c980f40244631","title":"\u0410\u0439\u0442\u0438 \u0432 \u0430\u0442\u043e\u043c\u043d\u043e\u0439 \u044d\u043d\u0435\u0440\u0433\u0435\u0442\u0438\u043a\u0435 \u2014 \u044d\u0442\u043e \u0441\u043a\u0443\u0447\u043d\u043e. \u041c\u0438\u0444 \u0438\u043b\u0438 \u0440\u0435\u0430\u043b\u044c\u043d\u043e\u0441\u0442\u044c?","buttonText":"\u0412\u044b\u044f\u0441\u043d\u0438\u0442\u044c","imageUuid":"c22764b5-e280-52b2-a6db-af308d4d1709","isPaidAndBannersEnabled":false}

Анализ постов и подсайтов DTF по открытым данным

На DTF более 120000 постов, 309 подсайтов (из них 3 скрытых), половина всех постов содержит меньше одного абзаца текста, а самый большой лонг — 200000 символов. Правда ли, что DTF — это площадка для продвижения интересов Sony? Правда ли, что лонгов становится меньше? Мемы и щитпосты убивают DTF? Попробуем разобраться.

Оглавление

Введение

Этот пост — продолжение моего прошлого поста с анализом пользователей DTF по открытым данным.

Там я написал, как собирал данные и что я с ними сделал. Если кратко, то я использовал API и тот факт, что DTF использует инкрементальные идентификаторы.

Данные, которые я анализирую в этом посте — это копия базы данных постов на 20 июля. Все сделано на Python и PostgreSQL. Исходники можно найти тут:

Посты

122473
постов в базе данных (июль 2020)

Но тут есть подвох. Не все посты из этих 122473 являются полноценными постами в нашем понимании. Разобьем их по типу.

  • Тип 1 — это как раз и есть посты, которые мы обычно видим. Так что можно обновить цифру.
111621
полноценных постов в базе данных (июль 2020)

Можно построить график постов.

Количество постов растет экспоненциально. Возможно, в какой-то момент DTF достигнет сингулярности, и контент будет выходить быстрее, чем аудитория сможет с ним справиться.

Тут есть одна аномалия. DTF перезапустился в середине 2016 года, но по какой-то причине, у некоторых постов даты публикации уходят в 2014 и 2015 года. Таких постов мало, поэтому погрешностью можно пренебречь.

UPD: Комментарий от пользователя:

> у некоторых постов даты публикации уходят в 2014 и 2015 года

Эти посты были перенесены с VC

Neko Natum, Ссылка

Построим график количества новых постов в неделю.

Все больше и больше постов появляется каждую неделю. В июне 2020 года есть огроменный пик. Это еще не сингулярность, просто в этом месяце пользователям стали доступны репосты (а некий Гоша сделал 5254 репоста). Дальше будем работать только с постами первого типа без репостов и вакансий.

Даже без репостов, начиная с апреля 2020-го, на DTF появляется больше 1500 постов в неделю (иногда больше 350 за день).

Здесь есть один аномальный пик — огромное количество новых постов в конце 2018 года. Это конкурс концептов для игр про продажу винила.

Насколько я помню, он успел всех изрядно подзадолбать и даже вызвал пару скандалов.

А еще на графике хорошо видно, что количество новых постов немного уменьшается в конце декабря перед каждым Новым Годом.

Еще один вопрос, который может возникнуть при взгляде на этот график — это какова среди них доля мемов. Мемов много, это один из самых быстронаполняемых подсайтов, но мемы дают лишь малую часть от общего количества постов.

Посмотрим долю разных подсайтов по их вкладу в общее количество постов за последние два года.

Важно: это не количество постов в подсайтах, а именно их доля от общего количества новых постов каждую неделю. Т.е. в подсайт Игры не стали писать меньше, просто раньше он давал 50% от всех постов, а теперь 10%. Количество в абсолютных цифрах мы еще рассмотрим далее.

Самое интересное, что можно заметить на этом графике — это блоги. Судя по графику, они появились в сентябре 2019-го, потом в 2020-м стали резко развиваться и сейчас дают 35% от всех новых постов.

Так выглядит топ подсайтов по количеству постов за все время (июль 2020).

Подсайты

309
подсайтов на DTF (без блогов)
97
обычных подсайтов на DTF (и редакционные, и пользовательские)
3042
персональных блога на DTF (хотя бы 1 пост)
212
корпоративных подсайтов на DTF
3
скрытых подсайта на DTF

Да, на DTF есть три скрытых подсайта. Как я их нашел, можно прочитать у меня в блоге (не забудьте подписаться).

Посты в подсайтах

Рассмотрим количество постов в разных подсайтах в разное время. Тут стоит учесть факт, который я обнаружил в своем посте про анализ пользователей DTF

Получается, 27 мая 2018 на DTF была миграция базы данных и/или рефакторинг, чтобы и пользователи, и подсайты были в одном и том же пространстве идентификаторов.

Я

Т.е. подсайты в своем текущем виде были созданы 27 мая 2018, поэтому нет особого смысла смотреть графики до этого времени. Будем отслеживать тренды с июня 2018 по июль 2020. Чтобы не плодить картинки, я буду объединять подсайты в группы, а некоторые вообще не буду делать, если там ничего интересного.

Игры, Индустрия игр и Gamedev

Посты в подсайтах, связанных с играми, выходят стабильно. Не было ни спада, ни роста. Иногда в «играх» есть выбросы — скорее всего, это какие-то важные релизы или другие инфоповоды. Например, самый большой пик на графике — это июнь 2020-го — выход The Last of Us 2. Пик в июне 2018-го — это E3 2018.

Подсайт «индустрия игр» появился позже остальных: 10 сентября 2018 года. На графике видно, что количество постов в «геймдеве» сразу уменьшилось, так как бизнес-темы ушли в новый подсайт. В «индустрии игр» есть посты и до сентября 2018 года — это, скорее всего, из-за того, что некоторые посты перенесли в новый подсайт после его создания.

Посмотрим отдельно, что из этого делает редакция, а что — пользователи (UGC, user generated content).

Редакция все меньше и меньше пишет в «Игры», зато пользователи — все больше.

То же самое и с Gamedev — большую часть контента создают пользователи.

В «индустрии», наоборот, большинство постов — у редакции.

В комментариях, возможно, будут шутки про то, что это из-за того, что редакция просто ворует посты у пользователей, отбирает у них авторство и добавляет плашку «Спасибо за наводку» или «Дополнено редакцией», поэтому я добавил графики для таких «украденных» или дополненных постов. Собственных постов редакции все еще больше, чем других.

Есть небольшой тренд на увеличение количества постов. Тренд долгосрочный, так что не сказал бы, что он связан с недавним изменением правил в подсайте.

Кино и сериалы

В «кино и сериалах» тоже есть тренд на снижение редакторских постов и рост пользовательских. Пик редакторских постов в июле 2019-го я объяснить не могу, там не было каких-то особых инфоповодов. Просто так получилось, что вышло много новостей за одну неделю.

Офтоп

Редакция в «офтоп» почти не лезет. Огромный пик в пользовательских постах в июне 2020-го — это протесты в США, TLOU2 и размышления на тему чемоданов в игровой журналистике.

Вопросы, Мемы, Видео и гифки

Самые быстроразвивающиеся подсайты. Без комментариев.

Жизнь

В «жизни» ничего интересного, все стабильно.

Инди

Пик в июле 2019-го — это индиджем на DTF. В 2020 есть тренд на увеличение пользовательских постов в «Инди».

Музыка, Аниме, Железо

В этих подсайтах стабильный рост. В «музыке» в июле 2020-го большой всплеск — кто-то просто начал выкладывать большое количество музыкальных клипов каждый день, никакого особого инфоповода я там не увидел. В июле Spotify появился в СНГ, но пик не из-за него.

Творчество, Арт, Скриншоты

Пик в «творчестве» в апреле 2020-го — это конкурс демонов.

Пик в «скриншотах» в июле 2019-го ни с чем ни связан. Люди пошли в новый подсайт постить свои скриншоты, а потом быстро успокоились.

О порно

Взлет, падение и новый взлет (?) подсайта «О порно». Правда, я бы переименовал его из «О порно» просто в «Порно».

Другие подсайты

Я не стал добавлять все подсайты сюда. Если вам интересно что-то конкретное, спрашивайте в комментариях. Но имейте в виду, что у меня данные только до 20 июля 2020.

Просмотры

104,368,242
просмотров на DTF за все время (июль 2020)

Топ 30 постов по количеству просмотров

Если хотите посмотреть какой-то пост из этого списка, введите в браузере «dtf.ru/{id поста}», например dtf.ru/1.

Доля просмотров подсайта от общего количества просмотров на DTF

Отсюда видно, что DTF — это все еще сайт про игры, сейчас они дают примерно 25% всех просмотров. «Кино и сериалы» — 10%, «офтоп» — 7%, «индустрия игр» — 12-13%, gamedev — примерно 1.5%.

Помните я писал, что по количеству постов блоги занимают 35% от всех новых постов? Так вот, по количеству просмотров они дают меньше 2%. С точки зрения трафика блогов на DTF не существует. У Gamedev трафик тоже маленький, но там особая аудитория, поэтому нельзя напрямую сравнивать просмотры в этом подсайте и в остальных — эти просмотры могут быть гораздо дороже с точки зрения стоимости рекламы.

Топ 30 подсайтов по количеству просмотров за июнь 2020 и их доля от общего количества просмотров в июне 2020

Вот таблица с более точными числами, чтобы примерно понимать, какую долю трафика обеспечивают разные подсайты за месяц.

Рейтинг

5,564,600
Суммарный рейтинг всех постов на DTF (июль 2020)

Топ 30 постов по рейтингу

Если хотите посмотреть какой-то пост из этого списка, введите в браузере «dtf.ru/{id поста}», например dtf.ru/1.

Замполит захватил этот топ.

Мой прошлый пост про анализ пользователей DTF на 48 месте. В таблицу не попал, но все равно приятно. Подписывайтесь на блог, кстати.

Топ 30 постов с отрицательным рейтингом

Если хотите посмотреть какой-то пост из этого списка, введите в браузере «dtf.ru/{id поста}», например dtf.ru/1.
12698
постов с отрицательным рейтингом на DTF (июль 2020)

Комментарии

5,573,269
комментариев на DTF за все время (июль 2020)

Топ 30 постов по количеству комментариев

Если хотите посмотреть какой-то пост из этого списка, введите в браузере «dtf.ru/{id поста}», например dtf.ru/1.

Количество новых комментариев за неделю

Количество комментариев в неделю растет экспоненциально. Я слышал точку зрения, что DTF стал токсичным 2 года назад. А ведь с тех пор частота комментариев увеличилась в 4 раза. Тяжелая у Шерифа и Рейнджера работа.

Среднее количество комментариев на пост

Комментариев становится все больше, но и постов тоже становится больше. Из-за этого средний размер дискуссии начал падать, начиная с начала 2019 года.

Падение комментариев в конце 2018 года — это все тот же конкурс «Продай винил». конкурсных постов выходило очень много, а комментариев все столько же.

Закладки

Топ 30 постов по количеству закладок

Если хотите посмотреть какой-то пост из этого списка, введите в браузере «dtf.ru/{id поста}», например dtf.ru/1.

Репосты

К сожалению, API не дает нормальной информации о том, что и откуда репостят. Можно узнать только то, кто репостит. Потом уже можно открыть пользователя/подсайт и посмотреть, что он репостит, но это нельзя автоматизировать.

Топ 30 пользователей/подсайтов, любящих делать репосты

Я уже упоминал Гошу. Гоша очень любил делать репосты. К сожалению, он перестал их делать.

«Подкасты» репостит себе новые выпуски подкастов из подсайтов этих подкастов.

Larian Studios репостит все посты про их игры и про саму студию.

Размер постов

Топ 30 постов по длине текста

Если хотите посмотреть какой-то пост из этого списка, введите в браузере «dtf.ru/{id поста}», например dtf.ru/1.

Первые два поста — это тесты максимального размера поста на DTF. Третий пост — это тест Zalgo-текста. Я у себя в блоге писал, что такое Zalgo-текст и как он работает (подписывайтесь на блог).

К сожалению, некоторые редакторские посты используют особую верстку, если там есть спонсорская интеграция, поэтому в API они отображаются не как текст, а как HTML. Их полную длину посчитать либо сложно, либо невозможно. Из-за этого, например, в статистику не попал вот этот монументальный труд Семёна Костина:

Распределение длины текста

Построим график распределения длины текста. Я убрал тестовые посты, так как их длина нам не интересна и из-за них графики становятся нечитабельными.

На этом графике ничего не понятно, так как особо длинные посты ломают масштаб (а представьте, если б я еще и тестовые посты оставил..). Построим график от 0% до 95%, чтобы отрезать то, что мешает.

Здесь уже масштаб гораздо лучше. Для тех, кто любит точность, вот еще и таблица с конкретными значениями:

10% постов на DTF не содержат текста вообще (не считая заголовка). Т.е. это только медиа-данные: гифки, видео, изображения и подобное.

Медиана: 749. Это значит, что половина постов на DTF содержит меньше 749 символов текста. Если вам интересно, сколько это, 749 символов, то вот:

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Quisque elementum in eros nec pharetra. Praesent id mauris vitae erat tincidunt cursus. Aliquam erat volutpat. Quisque commodo semper quam, sit amet vehicula justo iaculis et. Sed leo nibh, sollicitudin in arcu et, iaculis vulputate nisi. Morbi dignissim felis risus. Aenean vulputate tortor et diam posuere, vitae posuere erat sollicitudin. In hac habitasse platea dictumst. Nulla sit amet nisi ullamcorper, tincidun urna et, tristique dui. Nulla facilisi. Pellentesque iaculis ultrices ex, eget blandit mauris semper a. Curabitur pulvinar mollis tellus quis ornare. Mauris et eros augue. Vestibulum pellentesque rutrum risus nec dignissim. In non diam eu nunc consequat pharetra at quis at.

90% постов содержат меньше 5900 символов. Это примерно 2 страницы Arial’ом с размером 12.

Лонги

На DTF у людей иногда появляются мысли, что лонгов становится все меньше. Олег Чимде заметил эти настроения и даже писал у себя в блоге, что, как минимум, с редакционными лонгами все в порядке.

Тут есть одна проблема — что вообще считать лонгом? В зависимости от критерия мы можем получить разную статистику.

Лонги, отмеченные хештегами

Возьмем посты, которые авторы сами отметили как лонги с помощью тегов #лонг #лонгрид #long #longread

7193
лонгов на DTF (июль 2020)

Построим график новых лонгов.

Пик постов в конце 2018 года — это уже хорошо знакомый нам конкурс «Продай винил». По какой-то причине текстовые описания идей для игр отмечены тегом #long .

Предполагаю, что на DTF в какой-то момент прошлись скриптом и повесили этот тег всем постам с длиной выше определенного значения.

В январе 2019-го виден резкий спад в количестве лонгов. Построим отдельные графики для #long и всех остальных.

Здесь хорошо видно, что теги помимо #long стали использоваться только в 2019 году, а постов с #long стало меньше. Это подтверждает теорию, что их в какой-то момент проставили скриптом, а потом просто стали ставить теги вручную. Видимо, в январе 2019 этот скрипт и запускали.

Если выборочно посмотреть посты с #long , то видно, что там все подряд — не только полноценные статьи, которые сейчас принято считать лонгами, но и новостные заметки.

Так как мы выяснили, что тегам для лонгов нельзя доверять до января 2019 года, дальнейший анализ будет только для постов после этой даты и только для остальных тегов без #long .

Таких лонгов уже меньше:

1457
лонгов на DTF (без подозрительного тега #long, июль 2020)

Распределение длины лонгов

Есть несколько очень маленьких постов, но это не лонги, а просто упоминания лонгов в вопросах или каких-то постах в блогах.

Медиана для длины текста в лонгах: 15361. Это чуть меньше 6 страниц Arial’ом с размером 12.

График новых лонгов

Из графиков видно, что количество лонгридов (по тегам) не меняется. Оно держится в районе 15 штук в неделю. Причем половина из них редакторские, а половина — пользовательские.

Я не буду делать подробные графики лонгов по отдельным подсайтам, так как они не информативны. Олег Чимде писал, что у них есть фиксированный бюджет на лонги на каждый месяц, и я полагаю, что этот бюджет не привязан к подсайтам. Поэтому в какой-то месяц может быть больше постов в «играх», а в какой-то где-то еще: «кино», «аниме», «железо», что угодно. Такие графики просто не будут нести какой-то полезной информации.

Топ подсайтов/блогов по количеству лонгов

Топ подсайтов по количеству редакторских лонгов

Забавный факт: редакция написала больше лонгов в «кино и сериалы», чем в «игры».

Топ подсайтов/блогов по количеству пользовательских лонгов

А вот пользователи больше всего лонгов пишут в «игры».

Топ 30 авторов по количеству лонгов

Топ 30 авторов по суммарному объему текста в лонгах

Лонги с длиной текста выше порогового

Второй способ определять лонги — это брать тексты, длина которых больше определенного порога. Какого порога? А я не знаю. Статистика — это манипуляция числами. Я могу подобрать порог так, чтобы результаты получились такими, какими мне было бы выгоднее их показать. Поэтому я не буду так делать.

Вместо это лучше построим график изменения медианной длины поста и заодно 25- и 75-процентили. Медиана — это то же самое, что и 50-процентиль.

На графике видно, как рост количества мемов, видео, гифок и вопросов влияет на статистику длины постов — они становятся все короче.

Вот график длины постов, если брать только основные контентные подсайты (игры, кино и сериалы, индустрия игр, gamedev):

Отсюда видно, что в 2017 тексты были длиннее. В 2018 стали укорачиваться (вероятно из-за роста новостных заметок), в 2019 стабилизировались, а в 2020 есть небольшой рост.

А вот график, если брать лонги (по тегам):

У лонгов все хорошо. Есть даже небольшой тренд на увеличение их размера.

«Спасибо за наводку» и «Дополнено редакцией»

943
постов со «Спасибо за наводку» (июль 2020)
3822
постов, дополненных редакцией (июль 2020)

Топ 30 пользователей по количеству постов, которые забрала редакция и добавила автора в «Спасибо за наводку»

Топ 30 пользователей по количеству дополненных постов с сохранением авторства

В комментариях жду шутки про то, почему Andrey Apanasik не на первом месте.

Хештеги

Во всех таблицах и графиках в этом разделе я не учитываю дубликаты тегов в постах. Т.е. если в каком-то посте какой-то тег используется более одного раза, то такой тег будет учтен всего один раз.

Топ 30 хештегов по количеству постов с ними

Топ 7 хештегов в разные месяцы

Я убрал из таблицы хештеги, которые, по моему мнению, не несут информации о трендах, а просто обозначают тип поста: long, лонг, кино, фан,мнения, обзоры, разбор, опыт, игры, видео, сериалы,деньги, топы, истории, мобайл, киберспорт.

Таблицу довольно сложно читать, поэтому самые интересные тренды в хештегах я вынес в отдельные графики.

Тренды в хештегах

thelastofus, thelastofus2, tlou, tlou2

nintendo, microsoft, sony

Ничего интересного, основные платформодержатели упоминаются равномерно. Большой пик в июне 2020-го — это The Last of Us 2.

xbox, playstation, switch

Switch упоминается в тегах реже, чем другие две консоли, но со стабильной частотой. Количество упоминаний Xbox и PS увеличивается. Вероятно, из-за приближающегося релиза нового поколения.

Эффект The Last of Us 2 здесь тоже виден.

steam против egs

Галёнкин, конечно, молодец, но Гейба ему не догнать.

играпрестолов

Первый пик — 7й сезон, второй пик — 8й сезон.

микротранзакции

Первый пик в октябре 2017го — это новости о грядущем релизе Star Wars Battlefront II и о том, что там прогрессия завязана на лутбоксах и микротранзакциях. Большой пик в ноябре 2017го — это релиз игры и последующее обсуждение лутбоксов, микротранзакций, этичности их использования в платных играх, а также новости о том, как правительства разных стран размышляют, являются ли лутбоксы разновидностью казино.

коронавирус

Коронавирус перестал быть инфоповодом и стал обыденностью.

cyberpunk2077

Хайптрейн Cyberpunk 2077. Пики каждое лето — это новые трейлеры.

Я хотел показать, как изменялись популярные теги на DTF в виде эффектной гифки или видео, как это было модно некоторое время назад, но это оказалось сложнее, чем я думал. Я еще вернусь к этой идее позже. Подписывайтесь на мой блог, чтобы не пропустить.

Когда лучше публиковаться

Rokors опередил меня своим постом по этой теме.

У него в анализе было 3500 постов, а у меня 111621. Посмотрим, отличаются ли наши результаты.

Количество постов в разные часы

Если брать все посты за все время, то больше всего публикаций приходится на 15-16 часов.

Если брать посты только за первую половину 2020 года (37341 постов), то теперь график уже не такой ровный. Максимум публикаций теперь в 19-20, пик в 15-16 часов все еще сохраняется. Есть еще небольшой выброс в 13 часов (обед?).

У редакционных постов различие между днем и ночью еще сильнее. Пик публикаций — 16 часов. В 15 часов, наоборот, падение количества публикаций.

Пользователи в меньшей степени заботятся о времени публикации. Из этого графика видно, что пик публикаций в 19-20 часов обеспечивают именно они, а не редакция.

В блогах пользователи разгоняются примерно к обеду, постят равномерно до 23 часов, а потом идут спать (иногда).

Количество постов в зависимости от дня недели

В выходные постов меньше. Из будних дней есть небольшое уменьшение постов по понедельникам. В случае редакции разница по дням более заметна. Пик редакционных постов — четверг.

Количество лонгов в зависимости от часа публикации

Лонги определяются по тегам.

Пик публикации лонгов — 18 часов.

Редакция как будто выпускает лонги в определенное время: 14, 16 или 18 часов. Пользователи любят выпускать лонги утром (10-12), в 15 часов и вечером (17-18).

Количество просмотров в зависимости от часа публикации

Сразу важное замечание: это не количество просмотров в определенное время. Это количество просмотров у постов, которые были опубликованы в это время. Эти графики показывают корреляцию между временем публикации и просмотрами, но из них нельзя понять, когда на DTF наибольший трафик.

Если брать все посты, то среднее количество просмотров на пост примерно одинаковое в разные часы. С 23 до 3 часов лучше не публиковаться, у таких постов меньше просмотров. Возможно, из-за того, что они теряются в ленте после других утренних постов.

Если брать только редакционные посты, то у ночных постов просмотров заметно больше. Нужно иметь в виду, что ночью редакция выкладывает очень мало постов, поэтому у ночной статистики очень большая погрешность. Эти всплески сглаживаются на общем графике, потому что ночью пользователи постят гораздо больше, чем редакция, и из-за этого среднее количество просмотров падает.

У пользователей среднее количество просмотров меньше в несколько раз, так как у них нет такого мощного инструмента продвижения, как выкладывание постов в соц.сети. Больше всего собирают посты, выходящие утром в 4-7 часов. Видимо, это как раз те посты, которые по утрам отбирают все внимание у постов, которые выходят в 23-3 часов. А так как люди начинают активно постить часов с 10, то эти утренние посты несколько часов висят в свежем, собирая просмотры.

Лонги

Судя по этому графику, лучше всего публиковать лонги в 14 или в 23 часа. Но про 23 часа — это неправильный вывод. Сейчас объясню почему.

Сравним графики средних просмотров для редакции и для пользователей.

Тут видно, что пик среднего количества просмотров в 23 часа дает именно редакция. Теперь возвращаемся на несколько графиков назад и смотрим, сколько постов редакция выпустила в 23 часа вечера за рассматриваемый период времени. Там всего один пост. Вот этот:

Он собрал много, так как там был важный инфоповод, но это статистическая аномалия, мы не можем делать выводы только по одному посту.

Поэтому, если убрать такие аномалии, самым эффективным временем публикации лонгов получается 14 часов по московскому времени.

Количество просмотров в зависимости от дня недели

Количество просмотров падает у постов, опубликованных в пятницу и на выходных, но не сильно.

А вот лонги выгодно публиковать в пятницу и воскресение. У меня нет статистики по тому, в какое время у постов появляются просмотры, но предполагаю, что пятничные посты набирают просмотры в тот же день, а воскресные — в понедельник.

Я не буду строить графики для рейтинга постов и количества комментариев, так как уже есть графики количества просмотров, а просмотры конвертируются в рейтинг и комментарии в зависимости от качества поста. Качество поста, очевидно, не зависит от времени публикации, а если и зависит, то так слабо, что на графиках мы этого не увидим.

На этом все. Получилось и так гораздо больше, чем я ожидал. Если у вас есть еще какие-то идеи для графиков или таблиц, то пишите об этом в комментариях — я либо отвечу прям там в комментариях, либо потом соберу в дополнительный пост с заявками читателей.

Ну и подписывайтесь на блог. Я периодически выкладываю подобную дичь там. Да, это уже пятый призыв подписываться на мой блог, но вдруг вы пропустили первые четыре.

0
136 комментариев
Написать комментарий...
Lev Leviev

Полезно, спасибо. 

Ответить
Развернуть ветку
Артем Леготин

очень круто

Ответить
Развернуть ветку
Mikhail Chugunov
Ответить
Развернуть ветку
Vlad
Ответить
Развернуть ветку
Семен Зажорный

Здорово! Обожаю графики, статистику и в ней копаться.

Ответить
Развернуть ветку
Иной Артем

йоптвоюмать, вот тебе денег, я тебя боюсь

Ответить
Развернуть ветку
1 комментарий
Denis Shiryaev

Отлично, как всегда 🎀

Ответить
Развернуть ветку
2 комментария
Королевский Илья

Не попал ни на один скриншот.
Штож, буду стараться.
Upd. Автора забыл похвалить. Годный материал, посебо (¬‿¬) 

Ответить
Развернуть ветку
Random
Ответить
Развернуть ветку
Ilya Chekalsky
Ответить
Развернуть ветку
Andrey Apanasik

Забайтил.

Ответить
Развернуть ветку
3 комментария
Владислав Планида
Ответить
Развернуть ветку
Классный паркур

Комментарий недоступен

Ответить
Развернуть ветку
Классный паркур

Комментарий недоступен

Ответить
Развернуть ветку
6 комментариев
el viajero alex
Правда ли, что DTF — это площадка для продвижения интересов Sony?

Автор знает, чем привлечь читателей в свою публикацию :)

Ответить
Развернуть ветку
Nuke

Правда

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
SuxoiKorm
Это конкурс концептов для игр про продажу винила.
Ответить
Развернуть ветку
Тимур Султанов

И что там было на этом конкурсе? Точнее сказать, что за казус там был?

Ответить
Развернуть ветку
1 комментарий
Инженерный бокал
Гоша очень любил делать репосты. К сожалению, он перестал их делать.

Этот Гоша порвался.

Ответить
Развернуть ветку
Namid

Нашел зеленого кита!

Ответить
Развернуть ветку
Илья Цуканов

Третье место по лонгам: Илья Цуканов, 42 лонга
Первое место по количеству текста в лонгах: Илья Цуканов, 1228641 знак

Ответить
Развернуть ветку
Филиал Pikabu

Илья Лонг-Дик

Ответить
Развернуть ветку
Максим Бойко
Возможно, в какой-то момент DTF достигнет сингулярности, и контент будет выходить быстрее, чем аудитория сможет с ним справиться.

Уже достиг. У меня 750 закладок в профиле, я не справляюсь с таким потоком статей. И это при том, что где-то с год назад провёл менеджмент своих подписок – до этого вообще на каждый подсайт подписывался.

Ответить
Развернуть ветку
Евгений Приходько
Автор

Тебе есть к чему стремиться. Вот топ пользователей по количеству закладок

Ответить
Развернуть ветку
3 комментария
Newports red

это что дипломная работа?)) 

Ответить
Развернуть ветку
Евгений Приходько
Автор

Нет, тут графики подписаны не по ГОСТу.

Ответить
Развернуть ветку
8 комментариев
Грузовой химик

Комментарий недоступен

Ответить
Развернуть ветку
Металлический цвет
Ответить
Развернуть ветку
Andrey Apanasik

Никогда для своих статей не юзал тег #лонг.

Ответить
Развернуть ветку
Riverander

Тоже, у меня зубы скрипят от него.

Ответить
Развернуть ветку
Евгений Приходько
Автор

Я в своих статьях про разработку модов добавил #лонг на случай, если это влияет на попадание в подборки какие-то.

Ответить
Развернуть ветку
4 комментария
Eudialyte

Вот сейчас обидно было( 

Ответить
Развернуть ветку
Eudialyte
Ответить
Развернуть ветку
5 комментариев
Marat Khamadeev

Клёво, люблю такие разборы. Я сам когда-то таким увлекался на TJ, когда он был возраста DTF. Вот, если интересно
https://tjournal.ru/flood/18658-tj-kak-virus-ili-zapozdalyy-otvet-vladu-cypluhinu-2

Ответить
Развернуть ветку
Marat Khamadeev

Хотелось бы, однако, вставить свои замечания и пожелания

1. Вы утверждаете в нескольких местах экспоненциальный рост. Неплохо было бы чем-то подтверждать. Не обязательно делать аппроксимацию, но можно хотя бы взять ось ординат в логарифмической шкале, как это делают в вузах на лабах. Тогда можно увидеть, что, например, рост количества новых комментариев за неделю вырождается из экспоненциального в линейный.

Зачем это делать? На первый взгляд не так важен характер роста: экспоненциальный, степенной или вообще линейный - растёт и ладно. Однако в особенностях роста иногда спрятана специфичная информация о системе. Вам это может и не нужно, но тому, кто соберётся делать прогноз на основе ваших данных, вполне пригодится.

2. Графики с распределением длины постов станут лучше восприниматься, если вы поменяете оси местами, а точки когорт представите в виде столбцов. Примерно так, как у вас дальше с временным распределением. Я потратил определённые усилия, чтобы понять, про что график, а ширина когорты так вообще стала понятна только из таблицы.

3. Число чего угодно за период времени, как вы и так наверное знаете, это адаптация производной на дискретный случай. Однако, здесь многое зависит от размера периодического окна.

Подбирать его нужно в первую очередь ориентируясь на временные масштабы изучаемой системы. Если окно будет слишком большое, можно потерять локальные тренды. Если слишком маленькое - потерять аналитичность и информативность.

Неделя - это хороший вариант. Но попробуйте ещё день. Иногда вылезают интересные результаты.

Ответить
Развернуть ветку
2 комментария
U.N.Owen Was Natum
у некоторых постов даты публикации уходят в 2014 и 2015 года

Эти посты были перенесены с VC

Ответить
Развернуть ветку
Евгений Приходько
Автор

Добавил в пост

Ответить
Развернуть ветку
Жилой Денис

Снимаю шляпу

Ответить
Развернуть ветку
Проклятый коктейль

Комментарий недоступен

Ответить
Развернуть ветку
Криминальный химик

Красиво

Ответить
Развернуть ветку
Олег Целищев

Спасибо за топ-30 заминусованных постов, будет что почитать на досуге

Ответить
Развернуть ветку
Окружающий велосипед

Комментарий недоступен

Ответить
Развернуть ветку
klimente

60 закладок и мой пост выйдет с 3 места на 1 по значению закладок)

Ответить
Развернуть ветку
Metalcoreman

Если вы стали часто видеть рекламу об обучении по профессии Data Science, то этот текст и является именно тем, чем занимается датасаенцист: данные, python, графики, анализ.

Ответить
Развернуть ветку
Shepard

Да, но не совсем.
в дата саенсе нужно много (очень много) времени готовить датасеты, чистить их, находить корреляции и делать модельки.
Конкретно эта статья подошла бы больше дата-аналитику

Ответить
Развернуть ветку
4 комментария
Металлический цвет

Тыщу лет хочу вкатиться в датасаенс, исхожу слюной на графики и базы данных, но чет никак не срастается

Ответить
Развернуть ветку
1 комментарий
Евгений Приходько
Автор

Я надеюсь, что у профессионалов это интереснее получается. Я так, любитель графики построить.

Ответить
Развернуть ветку
1 комментарий
Силовой теркин30см

Комментарий недоступен

Ответить
Развернуть ветку
el viajero alex

Давай

Ответить
Развернуть ветку
1 комментарий
Metalcoreman

тоже под конец текста начало напрягать это слово, всё же лонгрид приятнее звучит.

Ответить
Развернуть ветку
1 комментарий
Промышленный франт

Сколько ты готовил этот материал? Мега-круто

Ответить
Развернуть ветку
Евгений Приходько
Автор

Примерно месяц по вечерам, но далеко не каждый день.

Ответить
Развернуть ветку
Валера Чумаков

Эх, как же много постов нужно добавить в закладки...

Ответить
Развернуть ветку
Дмитрий Воротников

Во ты дал жару👍

Ответить
Развернуть ветку
Valery Arugin
В «жизни» ничего интересного, все стабильно.

Прямо обо мне.

Ответить
Развернуть ветку
Nail' Tuishev

Гениальный выбор цветов на графиках ps, xbox, switch и sony, ms, nintendo)

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Абрахам Рабинович

Ого, я в топе репостов. А на самом деле обидно, что почти никто не репостит. Вот когда завезут подпись к репосту, если конечно будет, надеюсь они обретут большую популярность

Ответить
Развернуть ветку
Радмир Насыров

Цвета ввели меня в ступор сначала))

Ответить
Развернуть ветку
preqursor

Вот это массивный труд! Спасибо, очень интересно было ознакомиться!

Ответить
Развернуть ветку
дмитрий титов

Ахрененно!

Ответить
Развернуть ветку
Shepard

Вы юзали Pycharm + Jupyter?)

Ответить
Развернуть ветку
Евгений Приходько
Автор

PyCharm да, а про Jupyter я вообще не знаю. Это мой второй проект на питоне)

Ответить
Развернуть ветку
Влад Демин

@Евгений Приходько 
Крутая статья. Жалко, что хештеги, вроде, #месяцморя или #месяцмагии не рассмотрел отдельно и не сравнил пользовательский и редакторский вклад в них (логично, что редакторский будет больше), и, например, не посмотрел, насколько это популярное мероприятие на сайте по просмотрам и оценкам, по сравнению с остальным сайтом.

Ответить
Развернуть ветку
Евгений Приходько
Автор

Месяц морей все еще идет, а у меня данные до 20 июля. В месяце магии что-то так себе графики.

Ответить
Развернуть ветку
Survivor
С точки зрения трафика блогов на DTF не существует.

То есть и здесь блоги умирант?

Ответить
Развернуть ветку
Евгений Приходько
Автор

Скорее еще не полностью родились.

Ответить
Развернуть ветку
Лев Ариков

Странно нашёл у себя 6 постов «Спасибо за наводку», а меня в таблице нет
UPD: извиняюсь, данные до 20 июля

Ответить
Развернуть ветку
Divergo

Посыл понял, продолжаем щитпостить

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Евгений Приходько
Автор

Да. Нет четкого критерия, который позволит отделить лонг от обычной новостной заметки или щитпоста. Поэтому я взял посты, которые авторы сами считаю лонгами, и анализировал длину текстов и просмотры только для них. Теги не покрывают все множество лонгов, но они дают подмножество постов, которое можно исследовать и с некоторой погрешность экстраполировать на все лонгриды.

Ответить
Развернуть ветку
3 комментария
Пестрый фонарь

Комментарий недоступен

Ответить
Развернуть ветку
Евгений Приходько
Автор

Если они отмечены соответствующим тегом, то да. Я подробно описал критерии.

Ответить
Развернуть ветку
1 комментарий
Линейный кавалер

Комментарий недоступен

Ответить
Развернуть ветку
Евгений Приходько
Автор

Поэтому я уточнил, что лонги только по тегам определяю, так как иначе нет четкого критерия.

Ответить
Развернуть ветку
2 комментария
Аккаунт не используется

@Евгений Приходько ты говоришь, треть активности на сайте - это посты в блогах. Ты уверен, что это настоящие посты, а не репосты?

Ответить
Развернуть ветку
Евгений Приходько
Автор
 where type = 1

Да, это только настоящие посты. Уже есть больше 3000 блогов, люди щитпостят каждый день в больших количествах.

Ответить
Развернуть ветку
1 комментарий
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Евгений Приходько
Автор

Он не ставит теги #лонг и подобные, так что не должно быть.

Ответить
Развернуть ветку
Rar1ty

Полезная информация, спасибо автор 

Ответить
Развернуть ветку
zzMedVeDzz

Воу с киберспортом как все плохо. Хуже Дестени.

Ответить
Развернуть ветку
max train

Автор, а можешь узнать процент постов, в комментариях которых упоминается ведьмак, и через сколько минут после публикации? Можно разбить по 20 минутным интервалам.  

Ответить
Развернуть ветку
Евгений Приходько
Автор

Не, у меня нет комментариев в базе вообще.

Ответить
Развернуть ветку
1 комментарий
Определенный татарин

Комментарий недоступен

Ответить
Развернуть ветку
Читать все 136 комментариев
null