ChatGPT дома — запускаем текстовую нейросеть локально

Запускать будем модель LLaMA, а точнее ее модифицированные версии. LLaMA — модель текстовой генеративной нейросети от Meta (признана экстремистской организацией и запрещена на территории РФ), слитая в марте 2023 года. С тех пор много воды утекло и появилось большое количество модификаций от сообщества для разных задач, начиная от сторителлинга, заканчивая написанием кода. Если верить разработчикам, модель не уступает GPT-3.5.

Запускать будем на процессоре, так что йоба-видеокарты с 24гб врама не понадобятся. Запаситесь оперативкой, минимум 16гб для нормальной работы, если видеокарта есть — тоже хорошо, на нее можно переложить часть нагрузки, хоть это и не обязательно.

Для запуска необходимы две вещи — фронтенд, то есть иннтерфейс для общения с моделью, и сама модель. В качестве интерфейса будем использовать koboldcpp, как самый простой для вката в текстовые нейронки. Качаем его из репозитория на гитхабе. Модель можно использовать любую в формате GGML, главное чтобы было расширение. bin, а не какое нибудь. pt, и чтобы не было подписей _K/_S, такие не заработают. Больше всего разнообразных моделей можно найти на HuggingFace:

ChatGPT дома — запускаем текстовую нейросеть локально

Конкретно я буду использовать одну из самых популярных последних моделей — WizardLM 13B 1.2 на основе LLaMA. Качаем ее.

А пока модель качается, небольшое разъяснение: 13B — это количество параметров модели, чем их больше, тем она более продвинутая и «умная», но и тем больше ресурсов она требует. В нашем случае используется 13B модель, которой хватит 16гб ОЗУ за глаза. q4_0 (4 bit) означает степень квантования, говоря проще, это оптимизация модели, чем меньше — чем лучше.

И так, когда модель скачалась, запускаем Koboldcpp:

ChatGPT дома — запускаем текстовую нейросеть локально

Ставим настройки как у меня, поправив под себя количество потоков процессора и выбрав файл модели, запускаем и попадаем в браузер:

ChatGPT дома — запускаем текстовую нейросеть локально

Тыкаем на Scenarios и выбираем сценарий работы, то есть как использовать нейросеть. Сторителлинг, чатбот-помощник, текстовая адвенчура, you name it:

ChatGPT дома — запускаем текстовую нейросеть локально

Для обычного чат-бота как с ChatGPT выбираем KoboldGPT Instruct. Все, общаемся, пишем фанфики, используем как справочник и так далее:

ChatGPT дома — запускаем текстовую нейросеть локально

Общаемся на английском, да. Русиш модели либо не понимают, либо понимают плохо. Если нейронка работает медленно, ее часть можно переложить на GPU:

Параметр GPU Layers индивидуален, подбирайте под себя и свою видеокарту, у меня с 8GB VRAM хорошо работает значение 40<br />
Параметр GPU Layers индивидуален, подбирайте под себя и свою видеокарту, у меня с 8GB VRAM хорошо работает значение 40

Стоит сказать, что способов запуска и самих моделей множество, я лишь показал самый простой способ. А еще я мог накосячить, так как сам только изучаю это дело, просто захотел поделиться с комьюнити базовой инфой.

33
7 комментариев

Но там уже вторая Лама есть

Ответить

Ой, я не так написал, это WizardLM 1.2 а не LLaMA 1.2. Он вроде на LLaMA 2

1
Ответить

Без видеокарты можно даже не пытаться запускать, отвечает раз в час.

Ответить

Привет. Как ее можно обучить?

Ответить

Процесс сложный. Нужны знания Питона.

Ответить

Привет из 2024! Прикольный недооценённый пост)
Cкачал, запустил, отвечает сразу по слогам.
(CPU i5 10600, запуск без видяхи.)

Ответить