ChatGPT дома — запускаем текстовую нейросеть локально

Запускать будем модель LLaMA, а точнее ее модифицированные версии. LLaMA — модель текстовой генеративной нейросети от Meta (признана экстремистской организацией и запрещена на территории РФ), слитая в марте 2023 года. С тех пор много воды утекло и появилось большое количество модификаций от сообщества для разных задач, начиная от сторителлинга, заканчивая написанием кода. Если верить разработчикам, модель не уступает GPT-3.5.

Запускать будем на процессоре, так что йоба-видеокарты с 24гб врама не понадобятся. Запаситесь оперативкой, минимум 16гб для нормальной работы, если видеокарта есть — тоже хорошо, на нее можно переложить часть нагрузки, хоть это и не обязательно.

Для запуска необходимы две вещи — фронтенд, то есть иннтерфейс для общения с моделью, и сама модель. В качестве интерфейса будем использовать koboldcpp, как самый простой для вката в текстовые нейронки. Качаем его из репозитория на гитхабе. Модель можно использовать любую в формате GGML, главное чтобы было расширение. bin, а не какое нибудь. pt, и чтобы не было подписей _K/_S, такие не заработают. Больше всего разнообразных моделей можно найти на HuggingFace:

ChatGPT дома — запускаем текстовую нейросеть локально

Конкретно я буду использовать одну из самых популярных последних моделей — WizardLM 13B 1.2 на основе LLaMA. Качаем ее.

А пока модель качается, небольшое разъяснение: 13B — это количество параметров модели, чем их больше, тем она более продвинутая и «умная», но и тем больше ресурсов она требует. В нашем случае используется 13B модель, которой хватит 16гб ОЗУ за глаза. q4_0 (4 bit) означает степень квантования, говоря проще, это оптимизация модели, чем меньше — чем лучше.

И так, когда модель скачалась, запускаем Koboldcpp:

Ставим настройки как у меня, поправив под себя количество потоков процессора и выбрав файл модели, запускаем и попадаем в браузер:

Тыкаем на Scenarios и выбираем сценарий работы, то есть как использовать нейросеть. Сторителлинг, чатбот-помощник, текстовая адвенчура, you name it:

Для обычного чат-бота как с ChatGPT выбираем KoboldGPT Instruct. Все, общаемся, пишем фанфики, используем как справочник и так далее:

Общаемся на английском, да. Русиш модели либо не понимают, либо понимают плохо. Если нейронка работает медленно, ее часть можно переложить на GPU:

Параметр GPU Layers индивидуален, подбирайте под себя и свою видеокарту, у меня с 8GB VRAM хорошо работает значение 40<br />

Стоит сказать, что способов запуска и самих моделей множество, я лишь показал самый простой способ. А еще я мог накосячить, так как сам только изучаю это дело, просто захотел поделиться с комьюнити базовой инфой.