Ну как там дела с анализатором комментариев DTF aka DTF_TEXTAN?

Маленькая БД Sqlite на пользователя 224026 (то бишь меня). Целых 3 мегабайта щиткоментариев!
Маленькая БД Sqlite на пользователя 224026 (то бишь меня). Целых 3 мегабайта щиткоментариев!

В эту маленькую SQLite уже скачал все свои комментарии. Сложнейшим запросом удалось выяснить, что комментариев я написал уже целых 4858.

БД имеет следующую структуру:

Ну как там дела с анализатором комментариев DTF aka DTF_TEXTAN?

Такая структура выглядит достаточной для того, чтобы подсчитать все интересующие меня метрики комментариев.

Чего не хватает?

Список лайкнувших комментарий можно получить отдельным API-запросом на каждый комментарий. То есть, если у вас 4858 комментариев, как у меня, то придётся послать 4858 запросов к API, чтобы подсчитать все лайки. Учитывая, что допустимо обращаться к API не более трёх раз в секунду, то потребуется как минимум 4858 разделить на три секунд, чтобы скачать это всё. А это 27 минут.
В чём мораль этого пассажа лонгрида по разработке анализатора комментариев DTF_TEXTAN? А мораль простая - не надо щитпостить, ребята, вы нужны матерям вашим. Ну и чтобы вы понимали, что подсчёт аналитики лайков быстрым делом не будет.

Но я в любом случае скачаю всех лайкнувших.

Чего ещё не хватает?

Нужно ещё скачивать посты, это тоже отдельные запросы к API.
Но метрики по постам это вообще отдельная задача, которую я не решаю в данный момент. Но могу решить за ваши 5к. Небыстро и без гарантий, правда.

Что дальше?

Дальше просто импортну базу в датафрейм и начну строить всякие графички-метрички, возможно, сделаю какие-то простейшие классификаторы.

Пример метрик по комментариям:

  • Самый длинный комментарий
  • Облако слов по всем комментариям ever
  • Облако слов помесячно (так сказать, чтобы увидеть эволюцию ключевых слов)
  • Гистограмма количества комментов по длине комментария (чтобы убедиться, что большинство комментариев не превышает лимита твиттера)
  • Аналог Github-Activity комментатора, что-то типа того, что на скрине ниже:

Чую, что буду делать это капец долго, но хочу попробовать
Чую, что буду делать это капец долго, но хочу попробовать

Кстати, если у вас есть ещё идеи для метрики - тегайте меня и пишите метрики, все предложения рассматриваются.

Метрики по лайкам тоже в разработке.

Вообще я люблю пиздеть, так что не обещаю, что сделаю это всё. Если сделаю хотя бы 30% обещанного, это уже будет достижением.

Ну как там дела с анализатором комментариев DTF aka DTF_TEXTAN?
66
3 комментария

Все еще жду анализ моих комментов

1
Ответить

Комментарий недоступен

1
Ответить

Закинул бы в какую-то нейросеть вместе с постами, к которым делал комментарии, пусть учится делать посты к комментариям как дтф-ер

Ответить