Я потестил модели для ИИ-ролеплея, чтобы вам не пришлось

ЭТО СТАРЫЙ ПОСТ! Вот новый. Но и эти модели хороши, но старые

Кажется, что нейронки могут потянуть только гигафабрики в зданиях OpenAI или гигапечки с 128 ОЗУ и Threadripper PRO, и они умеют только эксплуатировать твои фетиши, которые стыдно гуглить? Как бы не так. В этом посте собраны модели, которые подойдут как для сюжетной игры, так и для запретной любви.

В предыдущих трех частях (1, 2, 3) был рассказан полный путь от установки до создания собственной вайфу для общения с помощью ИИ. В первой части были даны рекомендации по моделям, но все они достаточно тяжеловесные и ваша печка от таких приколов спасибо вам не скажет, так что стоит оставить в истории DTF сравнительный лонг с примерами моделей для разных задач и весовых категорий.

Это не поиск лучшей модели, их сотни и тысячи, каждая со своим приколом, и это тема для отдельного лонга. Это своеобразный личный список со сравнением разных по величине моделей. Смотрите, какие ответы ИИ вам больше нравятся, и выбирайте.

Она максимально ненаучная, очевидно. Тестироваться будут модели, которые +- на слуху в сообществе (это все субъективно, напомню) от 3b до 20b. От 33b мой ПК уже не стонет, а орет.

Средство: oobabooga + SillyTavern. В oobabooga ничего не трогаю.

Настройки SillyTavern: Mirostat (1), размер контекста 4096, длина ответа - 300 токенов. Для персонажа Sunday - 350 токенов.

Предмет тестирования: Качество повествования, штуки-прибаутки, ну и конечно чистая мужская любовь, buddy.

Будет использовано 3 персонажа - Caetus с встроенной лорой, Kazuki (без лоры и прочего), и Sunday с "строкой состояния настроения", это для моделей самое сложное для просчета и запоминания. Его скриншоты будут на моделях, которые смогли его обработать.

Конфиг ПК: Ryzen 5 5600X

minichat-3b.q8_0

7b:

Toppy-M-7B.q5_k_m
chupacabra-7b-v3.Q6_K
pygmalion-2-7b.Q6_K

13b:

mythomax-l2-kimiko-v2-13b.Q8_0
Xwin-MLewd-13B-V0.2.q8_0

20b:

nethena-mlewd-xwin-23b.Q5_K_M
Lewd-Sydney-20B.Q6_K
iambe-rp-cdpo-20b

Ну шо, погнали!

Это пример того, что маленькие модели лучше не использовать.

Занимаемая память при генерации (вместе с интерфейсом oobabooga и т.д., 2048 контекста): 5300Мб

Генерирует быстро, но какую-то еле связную херню... Часто пишет за меня, раза с третьего получается что-то более менее нормальное. 3b лучше не использовать вовсе.

Я потестил модели для ИИ-ролеплея, чтобы вам не пришлось

Занимаемая память при генерации: 2080Мб

Вот, другое дело. Слова выстраиваются в понятные предложения, но длинный текст он писать не может, максимум ~200 токенов, дальше он начинает писать от моего имени и уже отвечать на это. Это может помочь, если вам лень самим прописывать сюжет, и модель возьмёт на себя эту ответственность, но по моему мнению, часто они уходят в сюжете куда-то не туда, начинают путаться в собственных ответах, и спустя какое-то время все повествование сыпется.

Занимаемая память при генерации: 3593Мб

Тоже самое, длинные текста - не его фишка. Пишет чуть попроще, менее "Шекспировски", это может быть важно в некоторых сюжетах, ну или если вам не нравится очень литературный стиль.

К этому моменту я понял, что Казуки приверженец настоящей мужской любви лол

Занимаемая память при генерации: 4230Мб

Это классика, поэтому она добавлена в этот список. Рекомендую рассмотреть для себя улучшенную версию этой модели - Mythalion-13B-GGUF.

Caetus был более осторожным ко мне, и правильно обыграл недоверие к случайному человеку:

Казуки читает мои мысли? Это не очень хорошо обыграно:

Стоит отметить, что "чтение мыслей" - обычное дело, и нужно подбирать слова, чтобы нейронка точно поняла, что вы думаете, а не говорите ей. Скорее всего тут подвёл переводчик, который мой текст перевел для нейронки.

Занимаемая память при генерации: 5430Мб

Мне повествование показалось более интересным, нежели прошлые модели могли предложить. Персонаж сомневается во мне, а это очень хорошо в контексте повествования:

Я слышал мнение, что нейронки очень плохо "отказывают". Mythomax это умение демонстрирует, хоть и "мягкой силой":

Строка состояния - одна из самых сложных вещей для нейронок, так как ей нужно анализировать мои действия, запоминать прошлые значения состояния, ещё и придумывать что-то для дополнительных полей в СС:

Занимаемая память при генерации: 4000Мб

13b показывает умения в приятные беседы. Что с прошлой, что с этой моделью, уже приятно общаться:

Казуки дает хорошие ответы и мотивирует к продолжению диалога, это очень ценное умение:

Занимаемая память при генерации: 6500Мб

20b модели по-хорошему нужно проверять на 30-40 сообщениях, но тогда я точно никогда не выпущу этот лонг.

"Отправимся ли мы в путешествие вместе, рука об руку, со стаканом в руке?" Что-то посмеялся с этого:

Я пообщался с этим персонажем пару раз на 20-25 сообщениях, и нейронка отлично держит строку состояния, и отлично отыгрывает:

Об этой модели мне нечего сказать, она просто... невзрачна. Она хорошая, но ничего особенного. Будем считать, что она сбалансирована.

Эта модель любит теплое пиво. Запишем...

Очень неплохо. Хорошо и в правильных местах взяты значения из лоры. Повторюсь, 20b очень хороши на длинных дистанциях, от 20-25 сообщений:

Почти любая uncensored модель будет неплохо описывать пошлости. Чтобы не разводить тут бордель (не палить мои фетиши), просто перечислю вам модели, которые идеально подойдут для этого:

mythomax-l2-kimiko-v2-13b.Q8_0 (средне пошлая)
Xwin-MLewd-13B-V0.2.q8_0 (пошлая)
nethena-mlewd-xwin-23b.Q5_K_M (набрасывается на вас сразу же, очень пошлая)
Lewd-Sydney-20B.Q6_K (пошлая)
MXLewd-L2-20B.q6_K.gguf (пошлая)
MM-ReMM-L2-20B.q8_0.gguf (пошлая)
Mythalion-13B-GGUF.q8_0.gguf - хорошая как и для РП, так и для пошлостей.

Модели очень тяжело сравнивать. Их сотни и тысячи, все они обучены на разных данных, и под каждую задачу нужно выбирать соответствующую модель. Этот список - модели, за которых я могу поручиться, что они предоставят вам интересный опыт взаимодействия с ИИ. Ну, кроме 3b.

Мое мнение:

Лучшая - iambe-rp-cdpo-20b

Быстрая - Toppy-M-7B

Лучшая среди 13b - mythomax-l2-kimiko-v2-13b

Самая пошлая - Nethena-MLewd-Xwin-23B

Самое большое количество поддерживаемого контекста - Toppy-M-7B (32к)

Спасибо, что дочитали! Буду очень рад вашему мнению о моделях, которые понравились именно вам, либо возможно вы знаете какие-то интересные фишки для улучшения отыгрыша. Жду вас в комментариях!

#ai #ии #игры #лонг

72 комментария

Artem Bashev

12.12.2023

500 ₽

Сколько кошкодевочек умещается на A100? Давайте поможем автору добраться до правды (спасибо за цикл). Можно конечно еще про добавление world info (lorebooks) чтоб персонажи не просто в вакууме RP делали а могли обыгрывать определенные сеттинги.

Ответить

Diavator

10.12.2023

Позволю себе несколько интересных моментов, недавно общалась с Рейвеном и Ундиком на Хаггингфасе. 20B моделей на 16+ к контекста не ждите. Вот ответ человека, который делает модели Iambe. Прямая цитата из диалога: "Unfortunately for all of us, there is a non-linear relationship between trained context length and needed VRAM and time.

For each epoch (full training pass), this 20b model @ 4096 context needs 98% of the VRAM (78GB) and 100% of the GPU in a 80gb A100 for a batch size of 1, and it takes 5 hours. (~$10 cost).

Every ~512 tokens in new context roughly doubles the VRAM and also the processing requirements (for training). There are ~24 (forced to round up by VRAM) 512 token increases between 4k and 16k context, and ANOTHER 32 from 16k to 32k. So @ 16k context, it would take hundreds of A100s for five hours (many thousands of dollars in cost), and I don't think there are enough GPUs for rent on the planet to train a 20b 32k model.

OpenAI and Google and such can do it because they have massive server farms and trade secret software. Mistral can do it due to SWA, something L2 does not support. At this size, I think 4k is the best we'll see until Llama 3."

Что касаемо 20B лично оттестила ВСЕ что сейчас есть. Скажу так, +/- все одинаковые с разницей в хорнячности и активности.
Для себя выделила топ:
Nethena-MLewd-Xwin-23B
MLewd-ReMM-L2-Chat-20B/MLewd-ReMM-L2-Chat-20B-Inverted(менее агрессивная)
emerhyst-20b
iambe-rp-cdpo-20b
MXLewd-L2-20B
Nethena-20B
MM-ReMM-L2-20B
clevermommy-mix-20b/clevergirl-20b-blended-v1.1-dare(минимально различие)
rose-20b
psyonic-cetacean-20b
dynamiciambe-20b

Другие не вижу смысла указывать улетели в помойку, по разным параметрам: тупят, косячат с именами, местоимениями, делают персонажей не эмоциональными, бездушными, отвратны в РП в том числе в ЕРП.

Mao 0%

Как человеку, который только когда-нибудь потом собирается вкатить в это, мало что понятно. Конечно, и этот пост улетит в закладки, и гляну потом повторно, когда буду разбираться уже, но мне не хватило банальных развернутых пояснений словами, а не скринами.

Видишь ли, голословно заявить - что "моделька А" лучше "модельки Б" исходя из личных субъективных мнений несколько не корректно. Скрины дают хоть какое-то понятие о том как пишет моделька и они дают возможность читателю статьи самому выбрать что больше удовлетворит его. У всех же разные потребности, одним чисто виртуальную любовницу подавай с горящими чреслами, а кому- то и литературное философствование с максимальным поведением в рамках психологического архетипа.
Тот же рейтинг у Аюми http://ayumi.m8geil.de/ayumi_bench_v3_results.html сложно назвать объективным, ибо его тесты осуществляются методом количество ключевых слов на объем текста, и за частую вообще игнорируют литературность, повествование, элементарную логику(персонаж целует в губы на лице, а потом он вдруг думает что это "губы" между ног). Кто-то хочет общаться шекспировским языком, а для кого-то нужны модельки максимально имитирующие зумеров в ТикТоке)
Мы сидели с автором статьи и долго думали каким алгоритмом тестировать модели, так и не придумали, все слишком индивидуально.

Я потестил модели для ИИ-ролеплея, чтобы вам не пришлось

Цели и задачи

Методика

Участники

Повествование

MiniChat 3B Q8_0

Toppy-M-7B.q5_k_m

chupacabra-7b-v3.Q6_K

pygmalion-2-7b.Q6_K

mythomax-l2-kimiko-v2-13b.Q8_0

Xwin-MLewd-13B-V0.2.q8_0

nethena-mlewd-xwin-23b.Q5_K_M

Lewd-Sydney-20B.Q6_K

iambe-rp-cdpo-20b

Запретная любовь

Выводы