Break the RP-meta? [Очередной лонг]

Или мой рейтинг LLM для RP.

Все модели, представленные в этом посте, а также мнения о них — исключительно мои субъективные. Этот пост должен был выйти гораздо раньше с критическим сравнением по ряду аспектов, но, по какой-то причине, модели начали размножаться как грибы после дождя. Поэтому вместо стены картинок здесь будет стена текста.

Стоит также уточнить: под «большими моделями» я, в первую очередь, имею в виду использование их для Chat Completion в связке с SillyTavern.

Я уже касался этой темы. Сейчас, местами повторюсь, но.

Существует довольно большое количество моделей, специально собранных для RP. Они компактны и без особых проблем запускаются на домашнем ПК. Их небольшой размер не делает их «хуже» или «лучше» больших моделей — ведь в крупных вариантах зачастую содержится масса «мусора», совершенно ненужного для RP.

Если вы обладатель мощного железа, ничто не мешает вам запустить условную 48b Valkyrie (не смог найти на Hugging Face) или, например, 70b Anubis — и наслаждаться процессом. Из плюсов: такие модели, похоже, не используют технологию MoE, а значит, для генерации задействуется весь пул параметров. Из минусов: для их запуска потребуется действительно серьёзное железо, и возможна некоторая некомпетентность в «узких» аспектах вашего RP.

Что бы я посоветовал: начните с этой статьи на DTF — она полезна. Если же вам нужно больше, присмотритесь (и я не один это советую) к моделям от TheDrummer.

5 анонимусов из 10, если вы понимаете, о чём я.
P.S. Модели Барабанщика можно попробовать и на OpenRouter.

OpenRouter — это единая платформа, объединяющая провайдеров, предоставляющих доступ к своим языковым моделям. Что это значит?

Существуют организации, обладающие вычислительными мощностями и готовые делиться доступом к LLM через собственные сайты. Однако для удобства был создан OpenRouter — он собирает этих провайдеров «в одну кучу», позволяя использовать модели через единый интерфейс. По сути, он автоматически «регистрируется» за вас на всех этих сервисах и может динамически перенаправлять запросы от перегруженных провайдеров к более свободным — при этом оставаясь внутри одной и той же модели.

Можно бесконечно рассуждать о том, что ваши «сделки с вайфу» утекут в сеть, кто-то их прочитает, использует и так далее. Знаете что? Плевать. Ваши диалоги с вайфу будут находиться в таком объёме информации, что вероятность того, что РЕАЛЬНЫЙ ЧЕЛОВЕК это прочтёт — стремится к нулю. Если, конечно, вы не пишете там какую-то откровенную жесть.

Долго останавливаться здесь не буду. Да, на ОР есть модели 22b+. Но, честно, я не совсем понимаю, для чего именно их используют. Чтобы была «мобильная» нейросеть под рукой? Возможно. Но такие мы обходим стороной — разве что это не 70b Anubis ;)

Когда я говорю про синего кита, я имею в виду R1, V3 и R1T2. И, разумеется, речь идёт о номерных версиях, когда я упоминаю R1 или V3.

В целом, весь DeepSeek — это очень годный инструмент для RP. Со своими приколами, конечно: графомания, бесконечные [FIN or NOT?] на длинных контекстах… Но всё равно — это лучшее, что есть на данный момент без необходимости в чём-то глубоко разбираться. Закинул десять баксов на OpenRouter — и кайфуешь.

Не нужно думать о джейлбрейках. Не нужно волноваться, что провайдер внезапно «выйдет из чата». Даже платные версии стоят недорого, особенно на фоне конкурентов.

8 из 10.
DeepSeek — идеальный старт для новичка, который не хочет возиться с локальным запуском моделей. «Из коробки» может многое, но вам придётся постоянно подбирать подходящее «варево» в виде пресетов.
И, да, пожалуй R1T2 - лучшая из "китов".

6200 загрузок 600гб модели. Покажите мне эти ПК, на которых они это запускют.

Первый камень в крышку гроба скорости написания этого лонга. Когда появилась идея для поста, я как раз тестировал Qwen 235. Пока тестировал — вышла instruct-версия. Потом добавилась ещё и Thinking-версия... В общем, я махнул рукой (ДА ПОШЛО ОНО ВСЕ В...).

Как и многие другие, модель использует MoE с активными 22b параметрами. Пишет модель, в целом, неплохо — особенно по меркам RP. Я искал альтернативу DeepSeek для Text Completion, и сначала Qwen казался перспективным. Но, как всегда, есть одно большое «но»...

Модели нужно разжёвывать "узкие" моменты вашего RP. Например, если вы хотите стать киберспиртсменом по LoL, DeepSeek в своей манере (пусть и топорно) опишет, как вы прожимаете Q1, Q2, Q3 на Ривен. Qwen'у же, скорее всего, сначала нужно будет объяснить, кто такая Ривен (возможно), и что такое Q1–Q3 (вот тут точно)

6 из 10.
Лучше малых моделей (потому что не жрёт ресурсы вашего ПК), но слабее крупных, плюс не слишком уверенно работает с OOC-конструкциями. Ну или мне просто не повезло.

"Боль моя, дырка задница" — по-другому описать не могу.

Со стабильностью всё плохо. Прямо очень плохо. Кто виноват — не знаю, но три из четырёх запросов стабильно возвращаются с ошибкой. Уже две недели с момента релиза — и потестировать его как следует до сих пор не удалось.

Благодаря одному хорошему человеку появилась возможность потыкать Kimi K2 на Together.ai, но руки так и не дошли. К тому же они ещё и дропнули instruct-версию пару дней назад (ДА ВЫ ЗАКОЛЕБАЛИ ПЛОДИТЬСЯ).

?? из 10.
На высоком контексте не пробовал. На низком — любит короткие инструкции и старается им следовать (впрочем, как и все модели). Общий заявленный объём — триллион параметров, активных — 32 миллиарда. У меня были на него большие надежды...

Не трогал. Дорого. Очень дорого.

Немного математики: Допустим, на старте у вас 4–5k токенов контекста (персонаж, персона, инструкция). Один цикл «вы + модель» — это примерно 1000 токенов (у всех по-разному, но примем это как условие). До лимита в 30k токенов вы дойдёте уже за 25 циклов (то есть 50 сообщений). А у меня RP начинается где-то после 60-го сообщения, так что весёлое только начинается.

После преодоления 30k контекста, за следующие 10 циклов вы в среднем потратите около $0.60. В моём случае это превращается в $50–60 в неделю. А если я внезапно «ультану» и накатаю 600 ответов за день — ну, цифры становятся уже совсем неприличными.

Плюс к этому — риск бана от OpenAI. По слухам, модераторы реально сидят и под микроскопом читают сообщения. И если вы используете джейлбрейки или нарушаете ToS — не удивляйтесь, если получите пермач.

И ещё одно уточнение. В последнее время я много общался с RP-контингентом — и, честно, немного офигел. То, что для меня — неприемлемый NSFW-контент, для них — «ну это так, лёгкий разогрев». Поэтому, если кто-то говорит вам, что его забанили за «невинную эротику», — попросите логи. Боюсь, всё было далеко не так мягко.

Но это уже тема для отдельного поста. Едем дальше.

Я хейтил "близняшек". Прямо очень. За все эти костыли с подключением (привет, я из России), за возню с аккаунтами. Но я не могу не признать очевидное: "близняшки" — это, пожалуй, лучшее, что есть сейчас.

Они отлично воспринимают подсказки, устойчивы к сбоям контекста, и дают до 1000 сообщений в день просто за привязку карты.
Это мощно.

Очень сильные тексты, никаких джейлбрейков, правда превращает все в драму, зачастую. Даже подсказки не спасают.

Стал бы я «мутить схемы с аккаунтами» ради Gemini? Нет. При моей нестабильности — «сегодня 100 сообщений, завтра 600» — я бы просто задолбался прыгать с ключа на ключ.
Но если у вас есть возможность расширить лимит — о да, вы не пожалеете.

9 из 10.
Почему не 10? Потому что совершенных LLM я пока не встречал.

Вывод простой — используйте ту LLM, к которой у вас есть наиболее простой и стабильный доступ, и которую вы умеете (или хотя бы понимаете, как) настроить под себя.

Никогда, слышите, НИКОГДА не прыгайте с одной модели на другую в рамках одного чата. Никогда не меняйте подсказки в процессе сессии.

Почему? Потому что модель просто сбивается. Она смотрит на новую подсказку, на уже накопленный контекст и такая:
«А ЧЁ ДЕЛАТЬ?»

#нейросети #ролевыеигры #sillytavern

Break the RP-meta? [Очередной лонг]

Предисловие

Локальные (малые) LLM

Большие LLM, или куда потратить деньги?

OpenRouter

Малые модели на Openrouter

Deepseek

Qwen 235b-A22b-(язапуталась)

Kimi K2

Open.ai и Claude

Ai.Studio Gemini