Шаблон не плох, но есть еще куча рабочих вариантов и моментов(чорд, не хочу раскрывать эту кухню, ибо сама делаю чаров, дарю вам свой хлеб за даром!).
Бота не покажу, не простите, но суть объясню.
Вообще любого нового бота можно написать с помощью бота спецом заточенного на такую работу. Звучит дико, настоящий Скайнет, но это проще чем писать в ручную и быстрее. Огромный плюс такой методики, что та модель на которой вы создаете персонажа будет понимать его промт на 101% и подберет максимально отражающие запрос смысловые единицы.
Я делаю так:
1. Создаю краткое текстовое описание персонажа, внешность, стори, особенности, характер, и если надо четко описываю его фичи.
2. Генерирую "мозг" бота на 3х моделях от разных разработчиков: WizardLM 8*22, Llama 3 70b и Mistral Large и иногда ради забавы через 4 GPTо пускаю.
3. Сравниваю те слова, смысл и обороты которые использовали эти модели для генерации и собираю - франкенштейна. Это гарантия того что бот будет работать на любой модели. Чаще всего понимание у них общее, сильной разницы нет в используемых словах и смысловых единицах. Что-то дописываю сама, например список кинков, обычно модели работающее через API их не описывают, по этому прибиваем гвоздями сами.
4. Пишу сценарии/стартеры. Идеи либо рождаются у меня в голове сами либо прошу накидать идей нейронку. Сами тексты генерирую на специальной модели заточенной под писательство с напрочь отбитой цензурой. Мало того что она пишет так что это не выглядит ГПТ-текстом, так еще и подкидывает изюма в текст.
5. Тестирую бота на тех моделях что использовала для его создания + те модели что популярны в сообществе. Обычно делаю 5 -7 рп. Если надо правлю тексты/мозги замечая что боты давятся на словах или начинают болеть не той эмоцией.
6. Оформляю бота, генерирую задники, аватарку, если есть набор выражений, шапки стартеров.
7. Релиз... и все по новой с новым ботом.
Люблю писать бота смешанным стилем с четким разделением атрибутов, но при этом с описательной частью в истории и лора(если делаю). Применяю систему MBTI и психо-тестирования, если надо усилить какой то кинк или психическое состояние то несколько раз повторяю это понятие по тексту, дабы увеличить его вес в промте.
п.с. Есть нюанс, ботов для Антропиковских моделей надо писать тегово, если что я говорю о Клоде, но я сомневаюсь что тут есть его пользователи.
Забыл написать про самую важную фигню - ПРИГЛАШЕНИЕ, обычно его так называют, это формат подсказки длz LLM. Если выбрать тот на котором модель не умеет работать, опыт РП при таких условиях будет, мягко говоря, монолог из дур-дома!
Как понять на какой формат приглашения обучена модель, логично, прочесть документацию! Многие авторы пишут на прямую о том какой формат, но иногда это не понятно. Решение: смотрим на то какая в базе файнтьюна находится модель в файле config.json в данных на обучение модели. Если Мистраль - логично что запрос Мистраль, если Ллама 3- то запрос для Лламы и тд.
Нет никаких проблем, только вопрос оплаты. Ну это уже либо иметь друзей за бугром либо карточку.
Ваша модель - Мистраль значит она априори 32к, Таверна не работает нормально более чем с 8к контекста, именно по этому она вам предупреждение лепит когда вы контекст завышаете. Можно играть на 32к, без проблем, но могут быть артефакты в тексте и сведение диалога в скучную воду. Чем меньше контекст тем качественнее ответ, модель не растекается мыслью по древу, увы это пока издержки ЛЛМ. Попробуйте поработать с TogetherAI, прикольная шняга, за регу дарят API на 5 долларов, 1 лям токенов в зависимости от модели на площадке от 0,2 бакса до 1,2 бакса. Я сейчас просто сиу на Qwen2-72B-Instruct на 400 токенов за 2,2 секунды рожает! Уже задумываюсь реально оплачивать этот сервис, он раз в 100 дешевле API ГПТ4, Клода 3, Гемини 1,5, а модели кастомные куда более откровенные и без лишней цензуры.
В карточке модели на ХагинФейсе пишут, при загрузке если пользуетесь на КобольдССП а Ообабугой тоже видно сколько там контекст. Но прикол в том что Таверна работает хорошо только с 8к контекста. Если ставите больше когда чат перевалит за 8к могут начаться проблемы, от "хрюши-повторюши" до "не знаю что выбрать перечислю все". Обычно 6 квантование считается оптимальным. Разудтый контекст тоже плохо, модель теряет "изюм" в повествовании и становится скучно, поскольку у ней слишком много токенов в выборке.
Если вы ищите модели для РП то обратите внимание на новые 7б. Многие модели 7 б сейчас продуктивнее и обучены более качественно, чем старые 13-23б. Советую попробовать модели от https://huggingface.co/Lewdiculous Особенно его модельку Kunoichi DPO V2 Imatrix 7B у нее шикарные показатели в тестах, а скорость письма - быстрее поноса у ребенка)
MistralTrix V1 9B. Этой модели 8*9 нет. В моем сообщении нет таких данных о модели.
Могу советами помочь, если у вас есть дискорд. Просто местный чат ужасен ,я даже нормально скрины опубликовать не могу максимум 1 скрин в сообщение.
Если нужно что бы бот помнил важные вехи общения то проще всего их прописать в Заметки автора. Совсем упоротые ЛОРА пишут.
Следовательно токенов в Таверне должно быть идентичное количество:
Она не рассчитана на 8к, следовательно работать не будет. Вы можете хоть 1м контекста выставить, если модель сделана на 4 к, больше она не удержит, а после из-за разницы настроек сдохнет набрав свою минималку. Вообще на ЛЛаме2 - 4к контекста, на Мистрале -32к, есть еще 8к контекстные модели и ЮИ на 200к. Но по опыту 200к лучше не трогать, они жутко глючные и в РП не могут, 95%+ повторяемости, это отвратно.
Тот самый парадоксальный момент когда 9б может дать прикурить 70б модели. Тут прикол как в сравнении "умного" и "разумного", "умный" -знает много, но фигово пользуется этими знаниями, а "разумный" знает меньше, но то как оперирует этими малым объемом заставляет задуматься. Сама тестила МикстралТрикс 9б, и офигела от нее, не без грехов (привет, немецкий язык без причины, глюк обучения), но то как она обыгрывает карточку героя и как она красиво литературно пишет... это великолепно, еще и 32к контекста)) Поверьте на слово, мне есть с чем сравнить за долгое время тестов различных моделей и героев. Так что погоня за жирностью модели не всегда хорошая идея.
Насчет мыслей и Джисона, который обычно используется для их оформления, иногда помогает небольшое изменение, например "Sysytem Note" перед правилом или же [правило] заключить в усиление скобками.
Этот порт везде одинаковый, он прописан системно в настройках, его меняют только те кто делают доступ к Таверне сетевой, а не личный. Например вы ходите на работе к домашнему Пк через мобилу подрубиться и помучать бота.
http://ayumi.m8geil.de/erp4_chatlogs/?S=iq3_0#!/index
Ва должно интересовать только вот это:
1- размер моели
2- вариативность прилагательных (красивости текста и литературность если проще)
3- Повторяемость слов из предыдущих сообщений, чем меньше значение тем лучше.
4- умность модели, ее понимание чем выше тем лучше.
5- пошлость, если для ЕРП, чем выше тем лучше.
Если и это не помогает значит ваша модель была обучена на написании законченных рассказов и ее проще заменить на другую. Идете к Аюми, благо он исправился и стал делать годные тесты начиная с 4й итерации сайта и смотрите что вам подходит больше.
1- как обучена модель 2 - джейлбрейки и промт.
Если модель пишет и действует за вас - редактируйте и удаляйте это, если не помогает то в описание перса в конце или в начале (не важно) напишите что вроде: [{{char}} is not allowed to speak, think, decide, or control the dialogues of {{user}}. You will only speak, narrate and describe for {{char}}. You will never narrate, describe and speak for {{user}}. {{char}} guides the conversation forward.]
Причем тут СД если разговор об ЛЛМ моделях, а не о визуальных.
Если человек чем-то увлечен это не значит, что он ограничен только рамками своего хобби. Для большинства людей их хобби это форма отдыха от работы, семьи, детей.
Только действительно увлеченные люди, и, возможно, немного одержимые, могут создать что-то новое.
Берете у автора любого из его ботов (90% из них сюжетные с ЛОРА) и смотрите как она написана. Этот парень один из лучших в этом деле. https://www.chub.ai/users/statuotw
3я Лама будет в первой половине 24, она по мощности должна догнать 4й ГПТ. Ждем, возможно и контекст у нее в базе повысят хотя бы до 8к. И тестировать ее будет приятнее чем 2ю версию.
Я тут подумала, в общем вижу это так!
Принципы теста моделей в таком формате по баллам от 1 до 10.
Литературность: 1 - это уровень общения как у годовалого карапуза, а 10 - это шекспировские тексты с 5тью смыслами в одном предложении.
Скорость: скорость понимания контекста и выдачи ответа.
Вариативность: тут нужно пояснение. У некоторых моделек на один и тот же стартер может быть огромное количество вариантов ответа, а иногда только 1-3 и хоть 100 раз перегенерируй смысл будешь получать один и тоже за частую даже одинаковыми словами.
Умность модели: невероятно сложно тестировать, поскольку одна моделька будет хороша в сеттинг Стимпанка, а в Греческой мифологии даже имя Зевса не поймет. Сложно создать параметр ума. Есть модели не умеющие считать, надо по настройкам дать % состояния персонажа, и вместо того что бы к 10 прибавить 3 и получить 13 она пишет 10+3. Плюс сюда же контекст текста в стартере, умение в шутки/сарказм/двойной смысл/аллегории...Очень сложный параметр.
Эмоциональность: это то сколько моделька может удержать одновременно состояниях настроения персонажа и понять ваше состояние. Чаще всего слабые модели не держат больше 1го, а сильные даже 3 поймут.(расстроенный, недоумевающий, любопытный и т.д...)
Понимание героя: это то как она отигрывает карточку персонажа, очень часто от модели зависит кор поведение героя. Есть модели что делают из полных ублюдков милых няшек и наоборот... все дело в весе ключевых слов в их основе.
Удержание образа: то как модель спустя 20+ иногда 40+ раундов способна понимать героя и не прогибать его под вас и ваш стиль поведения (должен ругаться матом, но на 5м сообщении стал культурнее библиотекарши).
Удержание обстановки и контекста: то как модель понимает окружающее пространство и удерживает его(из разряда были на кухне, а потом вдруг вас телепортирует в кафе, или вы разделись, а модель снова вас раздевает)
Видишь ли, голословно заявить - что "моделька А" лучше "модельки Б" исходя из личных субъективных мнений несколько не корректно. Скрины дают хоть какое-то понятие о том как пишет моделька и они дают возможность читателю статьи самому выбрать что больше удовлетворит его. У всех же разные потребности, одним чисто виртуальную любовницу подавай с горящими чреслами, а кому- то и литературное философствование с максимальным поведением в рамках психологического архетипа.
Тот же рейтинг у Аюми http://ayumi.m8geil.de/ayumi_bench_v3_results.html сложно назвать объективным, ибо его тесты осуществляются методом количество ключевых слов на объем текста, и за частую вообще игнорируют литературность, повествование, элементарную логику(персонаж целует в губы на лице, а потом он вдруг думает что это "губы" между ног). Кто-то хочет общаться шекспировским языком, а для кого-то нужны модельки максимально имитирующие зумеров в ТикТоке)
Мы сидели с автором статьи и долго думали каким алгоритмом тестировать модели, так и не придумали, все слишком индивидуально.
airoboros - 16 к, для совсем отбитых есть
Capybara у нее 200к.
Позволю себе несколько интересных моментов, недавно общалась с Рейвеном и Ундиком на Хаггингфасе. 20B моделей на 16+ к контекста не ждите. Вот ответ человека, который делает модели Iambe. Прямая цитата из диалога: "Unfortunately for all of us, there is a non-linear relationship between trained context length and needed VRAM and time.
For each epoch (full training pass), this 20b model @ 4096 context needs 98% of the VRAM (78GB) and 100% of the GPU in a 80gb A100 for a batch size of 1, and it takes 5 hours. (~$10 cost).
Every ~512 tokens in new context roughly doubles the VRAM and also the processing requirements (for training). There are ~24 (forced to round up by VRAM) 512 token increases between 4k and 16k context, and ANOTHER 32 from 16k to 32k. So @ 16k context, it would take hundreds of A100s for five hours (many thousands of dollars in cost), and I don't think there are enough GPUs for rent on the planet to train a 20b 32k model.
OpenAI and Google and such can do it because they have massive server farms and trade secret software. Mistral can do it due to SWA, something L2 does not support. At this size, I think 4k is the best we'll see until Llama 3."
Что касаемо 20B лично оттестила ВСЕ что сейчас есть. Скажу так, +/- все одинаковые с разницей в хорнячности и активности.
Для себя выделила топ:
Nethena-MLewd-Xwin-23B
MLewd-ReMM-L2-Chat-20B/MLewd-ReMM-L2-Chat-20B-Inverted(менее агрессивная)
emerhyst-20b
iambe-rp-cdpo-20b
MXLewd-L2-20B
Nethena-20B
MM-ReMM-L2-20B
clevermommy-mix-20b/clevergirl-20b-blended-v1.1-dare(минимально различие)
rose-20b
psyonic-cetacean-20b
dynamiciambe-20b
Другие не вижу смысла указывать улетели в помойку, по разным параметрам: тупят, косячат с именами, местоимениями, делают персонажей не эмоциональными, бездушными, отвратны в РП в том числе в ЕРП.
*система типов личности MBTI * - небольшая ремарка, как понять шарит ваша модель в этом или нет? Проще простого! Создайте нулевого ассистента и попросите у него расшифровать ENTJ - 8w9 - so/sp - 863 - LSE - SCOAI - FVLE - Phlegmatic-Choleric - ET(S). Точно скажу что все модели выше 7 Б легко поймут Интроверты/экстраверты, холерика/флегматика/сангвиника. Скорее всего поймут социальные ориентации so/sx/sp, а вот с крыльями и прочим могут быть затыки. Проще говоря вариант сокращения психотипа: ENTJ -so/sp - Phlegmatic-Choleric сожрет любая 7Б+ модель.
Я это уже в дискорде объясняла автору статьи, по этому повторю тут для вас. Модели надо подбирать под себя, под конкретного героя и под ваш стиль письма и потребности в РП. Пример: есть герой, допустим - русалка. Одна модель вообще напрочь не будет понимать что ниже пояса там не совсем человек и будет постоянно писать про ноги, для другой описание хвоста - это мем про член, а вот третья мало того что поймет что там хвост еще и про чешую вам напишет и он будет плавать, а не ходить... (рыба ходит по воде, лол Иисус.) У меня 5 разных моделей 20B - 6Q, и после тестов на разных героях я просто разобрала и пометила их по группам. Как любитель всякой исторической РП, я просто визжала от восторга, когда модель emerhyst-20b.Q6_K поняла сеттинг Рима времен великого Цезаря еще и про право римское мне начала вещать и она прекрасно знала кто такие порна (вид жриц любви в Риме) и лупанарии.
У локальных моделей этих ограничений нет, если это не чистая Ллама. А это доученые модели, так что пробуйте.
http://ayumi.m8geil.de/ayumi_bench_v3_results.html рейтинг моделей от РПшника.
https://huggingface.co/ParasiticRogue/EVA-Instruct-32B Лови порно-квен, советую сделать настройки как говорит автор, они действительно рабочие и на фоне Немо и 3й Лламы эта моделька так освежает набором слов, оборотов и вообще поведением.