Когда 3090 важнее суперкомпьютера: как китайцы обучили языковую модель за 3 юаня

Знаете, что меня всегда раздражало в мире больших языковых моделей? Эта атмосфера закрытого клуба для избранных. Хочешь обучить свою LLM? Готовь миллионы долларов, договаривайся о доступе к кластеру из сотен GPU, набирай команду ML-инженеров. А потом еще год жди результатов.

И вот недавно наткнулся на проект, который переворачивает эту логику с ног на голову. Группа разработчиков из Китая создала MiniMind — серию языковых моделей, которые можно обучить на обычной игровой видеокарте за два часа. Стоимость вопроса? Три юаня. Это примерно полдоллара, если что.

Звучит как маркетинговая провокация, правда? Но нет — они действительно это сделали. И что важнее, показали всем остальным, как повторить их путь.

Давайте сразу определимся: MiniMind — это не конкурент GPT-4. Самая компактная версия весит всего 26 миллионов параметров. Для сравнения, GPT-3 тянет на 175 миллиардов. Разница в 7000 раз — почти как между велосипедом и космическим кораблем.

Но вот вопрос: а нужен ли вам космический корабль, если вы просто хотите добраться до соседнего района?

Создатели MiniMind исходили из простой идеи — большинству задач не требуется монструозная модель. Локальный чатбот для техподдержки? Специализированный ассистент для медицинских консультаций? Образовательный инструмент для студентов? Для всего этого хватит и скромных 26-100 миллионов параметров.

Главное — они открыли весь процесс. От токенизатора до финального файнтюнинга. Ни одной "черной коробки", ни одной проприетарной библиотеки. Чистый PyTorch, написанный с нуля. Можете открыть код и увидеть, как именно работает каждая часть трансформера.

Архитектурно MiniMind следует проверенным решениям: decoder-only трансформер с RMSNorm для нормализации, SwiGLU активациями и позиционными эмбеддингами RoPE. Ничего революционного, просто хорошо подобранная комбинация современных практик.

Интересный момент — они выбрали стратегию "узкого и глубокого". Вместо того чтобы раздувать размерность модели (d_model), сделали ставку на количество слоёв. У базовой версии 8 слоёв при d_model всего 512. Расширенная версия идёт дальше — 16 слоёв при 104 миллионах параметров.

Такой подход оказался удачнее для маленьких моделей. Глубина даёт лучшую способность к абстракции, даже если каждый слой относительно простой.

Еще одна фишка — собственный токенизатор всего на 6400 токенов. Это крошечный словарь по меркам современных моделей (у GPT-4 их больше 100 тысяч), но для китайского и английского языков с базовыми задачами вполне достаточно. Плюс модель быстрее обучается и требует меньше памяти.

Что действительно впечатляет — это комплексность подхода. MiniMind покрывает весь пайплайн современного ML:

Предобучение в 1.6 гигабайта. Да, это чертовски мало по сравнению с терабайтами данных, на которых тренируют GPT. Но зато процесс занимает часы, а не месяцы. Модель учится предсказывать следующий токен — классика жанра.

Дальше идёт супервизированный файнтюнинг (SFT) на диалоговых данных. Здесь модель учится вести беседу, отвечать на вопросы, структурировать ответы. Длина контекста обрезана до 512 токенов — опять же, скромно, но для быстрых экспериментов хватает.

Потом LoRA — низкоранговая адаптация. Это когда вы не переобучаете всю модель заново, а добавляете маленькие адаптеры, которые весят килобайты вместо гигабайтов. Хотите специализировать модель под медицинскую тематику? Обучите LoRA-адаптер за полчаса.

И вишенка на торте — DPO (Direct Preference Optimization). Это упрощённая альтернатива полноценному RLHF, которая позволяет "научить" модель человеческим предпочтениям без сложной системы наград. В результате модель становится более вежливой, аккуратной в формулировках, меньше несёт откровенной ерунды.

Есть даже версия с knowledge distillation — когда маленькая модель учится на "мягких" ответах большой. Это как если бы школьник учился не по учебнику, а наблюдая за рассуждениями профессора.

Окей, но работает ли это на практике? Смотря что считать "работать".

На академических бенчмарках типа C-Eval модель показывает около 25% точности. Звучит не впечатляюще, но это вполне сопоставимо с другими моделями схожего размера. Помните — 26 миллионов параметров это очень, очень мало.

Зато в диалогах модель ведёт себя вполне адекватно. Может поддержать разговор, ответить на простые вопросы, сгенерировать базовый текст. Конечно, не ждите от неё глубоких философских рассуждений или сложного анализа кода. Но для многих прикладных задач этого достаточно.

Разработчики даже сделали мультимодальную версию MiniMind-V, которая работает с изображениями. И всё это можно запустить локально, без интернета, без передачи данных на чужие серверы.

Возможно, вы думаете: "Ну хорошо, энтузиасты поиграли с игрушечной моделью. И что дальше?"

А дальше — демократизация технологий. Сейчас LLM это территория крупных корпораций с бездонными бюджетами. Google, OpenAI, Anthropic — все они оперируют масштабами, недоступными обычным разработчикам.

MiniMind показывает, что можно иначе. Студент с одной 3090 может за вечер обучить модель под свою задачу. Стартап без миллионных инвестиций может создать специализированного ассистента для своей ниши. Исследователь в университете может экспериментировать с архитектурами, не выпрашивая доступ к суперкомпьютеру.

Это про образование тоже. Хотите понять, как устроены трансформеры? Можно месяцами читать статьи и смотреть в непроницаемый код HuggingFace. А можно взять MiniMind, где весь пайплайн написан с нуля на чистом PyTorch, и разобрать по винтикам за выходные.

MiniMind — это доказательство концепции. Показатель того, что барьер входа в мир LLM можно опустить на порядки. Не тысячи GPU, не петабайты данных, не годы ожидания. Одна видеокарта, пара часов, полдоллара.

Конечно, это не замена GPT-4. И вряд ли когда-нибудь станет. Но это и не нужно. Это другая ниша — быстрые эксперименты, локальное развёртывание, обучение и исследования, специализированные применения.

А ещё это напоминание для всех нас: иногда самые интересные инновации приходят не от корпораций с миллиардными бюджетами, а от небольших команд, которые просто решили сделать технологию доступной.

Когда 3090 важнее суперкомпьютера: как китайцы обучили языковую модель за 3 юаня

Философия маленького и злого

Как они это провернули

Полный цикл за выходные

Практический угол

Зачем вообще всё это?

Что дальше?