Exo: Собери AI-суперкомпьютер из старых MacBook и Raspberry Pi (запусти огромную LLM дома!)

Игорь Телегин на связи! Есть способ объединить все ваши старые и новые устройства – MacBook, iPhone, Raspberry Pi, ПК с NVIDIA – в один мощный AI-кластер и запустить на нем монструозную нейронку?

Встречайте – Exo, опенсорсный инструмент, который позволяет это сделать! Я изучил, как он работает, посмотрел тесты энтузиастов (один парень собрал кластер из 4-х MacBook!), и готов поделиться, как эта магия работает и как вы можете построить свой собственный "домашний AI-суперкомпьютер".

Современные мощные LLM требуют гигантского количества оперативной памяти (RAM) или видеопамяти (VRAM). Например, для Llama 3.1 8B нужно около 16 ГБ. А для моделей покрупнее – и того больше. Ваш MacBook Air с 8 ГБ просто скажет "до свидания".

Идея Exo гениальна в своей простоте:

Exo "умно" разрезает большую LLM на части (партиционирование).
Затем распределяет эти "куски" по разным устройствам в вашей локальной сети, основываясь на их доступной памяти.
Когда вы делаете запрос, все устройства работают вместе как единый мозг, обрабатывая свою часть модели.

Ключевая фишка – P2P архитектура: Нет главного "сервера". Все устройства в сети равны. Это делает систему гибкой и отказоустойчивой.

Один из пользователей в своем видео-тесте наглядно показал, как это работает:

Задача: Запустить модель Quen 14B, которая не помещается в 8 ГБ RAM одного MacBook Air.
Сетап: Он взял один MacBook Pro (64 ГБ RAM) и три MacBook Air (8-16 ГБ RAM).
Запуск: На каждом MacBook он просто запустил команду exo в терминале.
Магия: Устройства автоматически нашли друг друга в сети и объединились в кластер из 4-х "узлов" (nodes).
Результат: Quen 14B успешно запустилась! Exo сам распределил "куски" модели по четырем машинам.

Из того же теста можно подсмотреть два крутых лайфхака для повышения эффективности:

Используйте NAS (сетевое хранилище) для моделей: По умолчанию Exo скачивает многогигабайтную модель на каждое устройство. Чтобы сэкономить место и время, можно с помощью переменной окружения HF_HOME указать Exo хранить все модели в одной общей папке на вашем NAS.
Используйте Thunderbolt Bridge вместо Wi-Fi: Для максимальной скорости и стабильности можно соединить ваши MacBook (или другие устройства с Thunderbolt) кабелями напрямую, создав сверхбыструю локальную сеть.

Устанавливаете Exo из исходников на GitHub (нужен Python 3.12+).
Запускаете команду exo на каждом устройстве, которое хотите добавить в кластер. Они должны быть в одной Wi-Fi сети (или соединены кабелем).
Открываете в браузере http://localhost:52415 на любом из устройств.
Профит! Вы видите ChatGPT-подобный интерфейс, где можно выбрать модель (Llama, Mistral, Qwen и др.) и начать с ней работать. Exo сам разберется, как распределить нагрузку.

Для разработчиков Exo также предоставляет ChatGPT-совместимый API, что позволяет легко интегрировать ваш домашний кластер в существующие приложения.

Exo – это невероятно крутой и перспективный проект. Он дает возможность энтузиастам, небольшим командам и даже просто любопытным пользователям запускать и экспериментировать с большими языковыми моделями, не арендуя дорогие серверы. Идея объединить вычислительную мощность устройств, которые и так у вас есть – это настоящий прорыв.

Самые свежие обзоры AI-инструментов и ссылки в Telegram!

Exo: Собери AI-суперкомпьютер из старых MacBook и Raspberry Pi (запусти огромную LLM дома!)

1. Проблема: Большие LLM не влезают в ваш компьютер

2. Решение от Exo: "Разрежь" LLM и раздай по кусочкам!

3. Как это работает на практике? (Кейс: кластер из 4-х MacBook)

4. Лайфхаки для прокачки вашего домашнего AI-кластера

5. Как начать пользоваться Exo? (Это проще, чем кажется)

6. Итог: Exo – это шаг к демократизации мощного AI