Мы выгрузили все комментарии с трёх сайтов — получилось 1,8 Гб текста. Но это сырые данные, которые нельзя было использовать. Поэтому датасеты пришлось отфильтровать: убрать лишние символы и ссылки, исключить комментарии из нескольких символов — скорее всего, ничего хорошего с ними бы не вышло.
Затем каждый датасет разбили на «токены», на которых построены предложения. На их основе нейронная сеть собрала свой словарь. С ним она теперь и будет работать, генерируя комменты за вас.
Тренировка нейросети на каждом датасете заняла пять дней, а делали мы всё на этом звере — Nvidia Quadro RTX 6000.
Ну всё, юзеры больше не нужны.
Комментарий недоступен
Андрей Апанасик – |>величайший аналитик Diggerpt. Должно сработать.
Andrey Apanasik |>— это мексиканец, от которого у меня кровь из глаз.
Комментарий недоступен
Комментарий недоступен
Пожалуйста, |>дополните вашу новость до публикации и добавьте в игнор, пожалуйста. А то очень плохо получается.