Я проанализировал 13 миллионов комментариев на токсичность и рассчитал ее для каждого из вас. Результат убил

Да, я украл идею. Токсичность каждого комментатора на DTF в процентном соотношении.

Методы сбора и анализа

Я уже много где рассказывал, как я скачивал весь DTF и с какими проблемами сталкивался, так что останавливаться на этом не буду. Скажу только, что ноутбук Ширяева все еще подлежит апгрейду.

Итак, объекты исследования - пользователи, у которых более 10 комментариев в профиле. Естественно, проверялись только те, которые с каким-либо текстом. Набралось 13 лямов!!!

Я проанализировал 13 миллионов комментариев на токсичность и рассчитал ее для каждого из вас. Результат убил

Все эти комментарии были отданы модели cointegrated/rubert-tiny-toxicity для анализа. Она возвращает значения от 0 до 1, где 0 - ангелочек и пушистик, а 1 - самый токсичный токсик. Ниже код из описания модели, чтобы вы поняли, что она считает:

print(text2toxicity(['я люблю нигеров', 'я люблю африканцев'], True)) # [0.93501186 0.04156357]

Расчеты эти правда заняли почти 3 дня. ИИ - это тяжело для железа. Но чего только не сделаешь для любимой площадки, правда?

Технология расчета

Скрипт брал все комментарии пользователя, анализировал каждый из них, а потом выводил среднее арифметическое. Далее я перевел все значения в проценты. Все просто!

После того, как все было сделано, я посмотрел на самого неприличного пользователя в таблице:

Красноречивый ник
Красноречивый ник

И вот эти 65,40% мы возьмем за 100%. То есть индекс токсичности в таблице ОТНОСИТЕЛЬНЫЙ. Во-первых так интересней, а во-вторых мне кажется так более справедливо и наглядно.

Я посмотрел в профиль Степана, и там прям ТОКСИК. Идеально! Учтем то, что я никак не обрабатывал входные данные. Ни очистки, ни фильтрации, вообще ничего. Модель вроде должна уметь оценивать токсичность по необработанному тексту, но все же. Поэтому индекс - относительный.

DTF - ангелочки и цветочки

Вот диаграмма: Красным отмечены профили, которые как минимум на 20% состоят из токсичных комментариев:

Я проанализировал 13 миллионов комментариев на токсичность и рассчитал ее для каждого из вас. Результат убил

DTF - одуванчики.

А больше данных я не смотрел. Чет не подумал. Ну, если вам зайдет - мб в следующий раз сделаю нормальную таблицу с большим количеством параметров.

Посмотрите на себя, токсики

Держите:

Тут все просто. Для надежности выставляйте Contains (Содержит) и пишите свой ник. В таблице будет показан Ник, Процент токсичности и количество проверенных комментариев.

Я проанализировал 13 миллионов комментариев на токсичность и рассчитал ее для каждого из вас. Результат убил

Вот так вот

Вы самые лучшие и приятные! Комьюнити DTF реально интересное и достаточно самобытное, ну и чуточку токсичное.

Буду очень рад вашим (не)токсичным комментариям и донатам, чтобы я наконец накопил на новый телефон.

234234
118118
1515
88
55
44
33
22
22
22
22
22
11
11
11
11
601 комментарий
1500 ₽

Толи я делаю что-то не так, толи меня нет в списке. Ну да не важно. Идея супер, лови плюсик за проделанную работу

34
9
1
1
Ответить