Вот, другое дело. Слова выстраиваются в понятные предложения, но длинный текст он писать не может, максимум ~200 токенов, дальше он начинает писать от моего имени и уже отвечать на это. Это может помочь, если вам лень самим прописывать сюжет, и модель возьмёт на себя эту ответственность, но по моему мнению, часто они уходят в сюжете куда-то не туда, начинают путаться в собственных ответах, и спустя какое-то время все повествование сыпется.
Сколько кошкодевочек умещается на A100? Давайте поможем автору добраться до правды (спасибо за цикл). Можно конечно еще про добавление world info (lorebooks) чтоб персонажи не просто в вакууме RP делали а могли обыгрывать определенные сеттинги.
Позволю себе несколько интересных моментов, недавно общалась с Рейвеном и Ундиком на Хаггингфасе. 20B моделей на 16+ к контекста не ждите. Вот ответ человека, который делает модели Iambe. Прямая цитата из диалога: "Unfortunately for all of us, there is a non-linear relationship between trained context length and needed VRAM and time.
For each epoch (full training pass), this 20b model @ 4096 context needs 98% of the VRAM (78GB) and 100% of the GPU in a 80gb A100 for a batch size of 1, and it takes 5 hours. (~$10 cost).
Every ~512 tokens in new context roughly doubles the VRAM and also the processing requirements (for training). There are ~24 (forced to round up by VRAM) 512 token increases between 4k and 16k context, and ANOTHER 32 from 16k to 32k. So @ 16k context, it would take hundreds of A100s for five hours (many thousands of dollars in cost), and I don't think there are enough GPUs for rent on the planet to train a 20b 32k model.
OpenAI and Google and such can do it because they have massive server farms and trade secret software. Mistral can do it due to SWA, something L2 does not support. At this size, I think 4k is the best we'll see until Llama 3."
Что касаемо 20B лично оттестила ВСЕ что сейчас есть. Скажу так, +/- все одинаковые с разницей в хорнячности и активности.
Для себя выделила топ:
Nethena-MLewd-Xwin-23B
MLewd-ReMM-L2-Chat-20B/MLewd-ReMM-L2-Chat-20B-Inverted(менее агрессивная)
emerhyst-20b
iambe-rp-cdpo-20b
MXLewd-L2-20B
Nethena-20B
MM-ReMM-L2-20B
clevermommy-mix-20b/clevergirl-20b-blended-v1.1-dare(минимально различие)
rose-20b
psyonic-cetacean-20b
dynamiciambe-20b
Другие не вижу смысла указывать улетели в помойку, по разным параметрам: тупят, косячат с именами, местоимениями, делают персонажей не эмоциональными, бездушными, отвратны в РП в том числе в ЕРП.
Как человеку, который только когда-нибудь потом собирается вкатить в это, мало что понятно. Конечно, и этот пост улетит в закладки, и гляну потом повторно, когда буду разбираться уже, но мне не хватило банальных развернутых пояснений словами, а не скринами.
Видишь ли, голословно заявить - что "моделька А" лучше "модельки Б" исходя из личных субъективных мнений несколько не корректно. Скрины дают хоть какое-то понятие о том как пишет моделька и они дают возможность читателю статьи самому выбрать что больше удовлетворит его. У всех же разные потребности, одним чисто виртуальную любовницу подавай с горящими чреслами, а кому- то и литературное философствование с максимальным поведением в рамках психологического архетипа.
Тот же рейтинг у Аюми http://ayumi.m8geil.de/ayumi_bench_v3_results.html сложно назвать объективным, ибо его тесты осуществляются методом количество ключевых слов на объем текста, и за частую вообще игнорируют литературность, повествование, элементарную логику(персонаж целует в губы на лице, а потом он вдруг думает что это "губы" между ног). Кто-то хочет общаться шекспировским языком, а для кого-то нужны модельки максимально имитирующие зумеров в ТикТоке)
Мы сидели с автором статьи и долго думали каким алгоритмом тестировать модели, так и не придумали, все слишком индивидуально.