О проблемах рейтинговой системы постов на DTF

Работает она неидеально и будет работать так же в ближайшем будущем

О проблемах рейтинговой системы постов на DTF

После того, как я анонсировал автоматический фильтр статей, было много шума, что я сейчас введу кучу формальных и необъективных правил, которые будут отсекать чужой контент. Особенно в обсуждениях повёл себя активно Лемур (спасибо ему за это, критика была объективной).

Претензии были в том, что нельзя считать контент хорошим или плохим исключительно из-за количества слов и картинок в нём. И это заставило меня заняться разработкой более комплексной системы анализа постов, а не проверять, больше ли в посте 500 слов. А если говорить более конкретно, я решил разработать автоматическую систему оценки постов. Каждому из них система будет присваиваеть определённый рейтинг, и по этому рейтингу посты будут сортироваться и даже отсекаться.

О причинах такого решения я говорил раньше: постов на сайте выходит слишком много, из них половина — контент из одной картинки или одного видео. Анализировать это вручную невозможно, слишком легко пропустить какого-нибудь начинающего блогера, которого ещё никто не знает, или хороший текстовый пост в каком-нибудь Виабу. Последние дни разработки только подтвердили мои догадки.

Что я анализирую

Начнём с того, какая вообще информация о посте может быть извлечена из API? Прежде всего, все видимые нам показатели: просмотры, лайки, репосты, закладки, комментарии. Ещё мы можем посмотреть, есть ли у поста галочка и в каком подсайте опубликован пост. Ну и, количество слов и медиаконтента (фото, видео, гифки, твиты). Помимо этого, мы можем хранить изменения этих показателей со временем.

Всё это я храню. И поскольку я пообещал, что не буду делать никаких различий между контентом, вся эта информация одинаково влияет на итоговый рейтинг. (точнее, почти вся: на рейтинг не влияет изменение этих показателей со временем и наличие галочки). И вот тут начинаются проблемы.

Глупо сравнивать показатели постов из разных подсайтов между собой: блогам и развивающимся нередакционным подсайтам нужно давать больше поблажки, потому что у них меньше подписчиков и меньше возможностей для раскрутки. Поэтому очевидно, что оценка должна быть относительной, причём относительно того места, где она опубликована.

Как я анализирую

Поэтому нам необходимо высчитать целевое количество просмотров и плюсов для конкретного подсайта в зависимости от подписчиков (другой информации, кроме подписчиков, у нас вообще-то и нет). Вот только для зависимость сложно описуемая с точки зрения математики: чем больше подписчиков у блога и подсайта, тем меньше процент активных подписчиков.

Приведу примерные показатели: для блога с 5 подписчиками нормальным количеством просмотров будет 5 (100%), для блога с 100 подписчиков нормальным будет 50 (50%), для крупного подсайта с 2к подписчиками будет нормальным 400 (20%), для подсайта с 15к будет 2к (13%), для редакционного подсайта это 4к (1,5%).

Так что я вооружился степенной функцией и подбором параметров в Excel. И сейчас оно так и работает: у меня есть две степенной функции с подобранными параметрами, одна для просмотров, одна для всего остального (комментарии, лайки, закладки). Помимо этого, учитывается количество слов (целевое - 500 штук) и медиаконтента (целевое - 10 штук). Всё это складывается в равной пропорции в окончательное число.

Где проблемы

Как работает? Ну, не очень хорошо: она даёт слишком сильный приоритет блогерам, причём чем меньше блогер, тем больше приоритет. Наверное, это потому что по сайту ходит определённое количество народа, которые смотрят случайные посты из блогов. Накрутить просмотры блогерам с 5 подписчиками они могут, а вот крупному уже нет.

Дополнительно, если блогера репостнули, то все его показатели вырастают к 200-1000% относительно его подписчиков. Богуславский за счёт репоста в соцсети в своём последнем посте получил прирост в 350000% — и теперь красуется в анализаторе заоблачным рейтингом (раньше таких цифр только Риверандер и Глед достигали).

Получается абсурдная ситуация: так, какая-нибудь картинка красивее обычной в блоге Шумского может перегнать пост от Smirnov School, над которым они копатились несколько дней.

А вот сегодня я копошился в базе данных и получил новые данные, которые чётко доносят мне простую истину: моя теория о зависимости просмотров от подписчиков подсайта в корне неверна.

Средние показатели подсайтов за неделю. Достаточно сравнить Настолки, Индустрию и Скриншоты между собой, чтобы понять, что для каждого подсайта своя конкретная ситуация и свои цифры. Ср - Среднее, Мк - максимальное<br />
Средние показатели подсайтов за неделю. Достаточно сравнить Настолки, Индустрию и Скриншоты между собой, чтобы понять, что для каждого подсайта своя конкретная ситуация и свои цифры. Ср - Среднее, Мк - максимальное

И тем не менее, рейтинг работает, если сравнивать его отдельно по блогерам и отдельно по подсайтам. Он может ошибаться в десятках, но тенденции он отражает хорошо. Ну, и некоторые подсайты он сильно занижает. Но, если так подумать, были бы подписчики этих подсайтов более активные, а не подписывались ради галочки, этого бы не случилось.

Впрочем, я никогда не доверяю автоматам, к тому же тем, которые написал я (из меня сносный прогер, но плохой тестер), так что в своём анализаторе я дал возможность менять нижний порог рейтинга и сортировать посты по всем показателям. А в будущем постараюсь придумать что-то получше.

Передаю привет Приходько, который говорил, что ничего у меня не получится.

2727
7 комментариев

Как я уже говорил, просмотры в основном бустятся соц. сетями, лайки - репостами в крупные подсайты.

7
Ответить

 Передаю привет Приходько, который говорил, что ничего у меня не получится.

Привет!

 Наверное, это потому что по сайту ходит определённое количество народа, которые смотрят случайные посты из блогов. Накрутить просмотры блогерам с 5 подписчиками они могут, а вот крупному уже нет.

Накрутить можно и без посторонней помощи, просто обновляя страницу в браузере. Очоба считает все загрузки, а не только уникальных пользователей.

2
Ответить

"контент хорошим или плохим" автор застрял в своем восприятии на уровне стишка Чуковского? Пора взрослеть уже.

1
Ответить

Серая мораль нравится?

Ответить

"Накрутить просмотры блогерам с 5 подписчиками они могут, а вот крупному уже нет."
А если добавить "штраф" за низкое число подписчиков? Ну, типо какое-то число в знаменатель плюсовать, если там берется отношение.

Ответить

Звучит как какой-то костыль. Не люблю костыли, потом в них не разберёшься

Ответить