Датасет "Комментарии DTF"
Если тут есть желающие поковырять комменты, держите структурированный датасет! В нем также рассчитана токсичность комментариев.
За ее расчет огромное спасибо моему сэнсэю Никите! Внутри поста - структура датасета
Инфо:
Этот набор данных содержит данные с середины 2016 года по конец 2024 года с веб-сайта DTF.ru
Структура:
– post_title - текст сообщения;
– parent_comment - родительский комментарий;
– child_comment - ответный (дочерний) комментарий на родительский комментарий;
– subsite_name - название дочернего сайта (например, темы);
– comment_id_parent - идентификатор родительского комментария к dtf.ru
– comment_id_child - идентификатор дочернего комментария к dtf.ru
– replyTo - идентификатор родительского комментария, на который отвечает дочерний комментарий
– parent_likes - количество лайков на родительский комментарий
– child_likes - количество лайков на дочерний комментарий
– reply_count - количество ответов на родительский комментарий;
– normalized_reply_count - нормализованное значение количества ответов на родительский комментарий (от 0 до 1).
– parent_comment_tox - показатель токсичности родительского комментария
– child_comment_tox - показатель токсичности дочернего комментария
Набор данных содержит следующие символы: a-zA-Za-яА-Я0-9.,!?;:
Глобальный фильтр: были собраны комментарии длиной не менее 30 символов и от 5 лайков и более
Набор данных не очищен! Из-за специфики модерации набор данных содержит много повторяющихся строк. Существует несколько их типов:
– "Этот материал был удален по просьбе автора";
– "Комментарий недоступен";
– "Комментарий удален автором поста";
Это отметка об удаленных комментариях, они ценны только тем, что их подсчитывают, но не тем, что используют для доработки или анализа написанного.
13 комментариев