ВИДЕОКАРТЫ БОЛЬШЕ НЕ НУЖНЫ ДЛЯ ИИ.

Тут незаметно произошел технологический рывок в нейросетях.

На изображении представлена презентация Taalas HC1 — специализированного чипа (ASIC).

Рекордная скорость: Стартап Taalas (Торонто, Канада) представил чип HC1, который выдает невероятные 17 000 токенов в секунду на модели Llama 3.1 8B. Для сравнения, топовый Nvidia H200 выдает около 230-300 токенов в тех же условиях.

«Модель в кремнии»: В отличие от видеокарт, HC1 не «запускает» модель, а буквально содержит её веса, «вытравленные» прямо в транзисторах (hardwired). Это устраняет главную проблему современных вычислений — задержку при передаче данных между памятью и процессором.

Экономика: Заявлено, что чип в 20 раз дешевле в производстве и потребляет в 10 раз меньше энергии, чем решения от Nvidia. Стоимость генерации 1 млн токенов на HC1 оценивается всего в 0.75 цента.

Доступность: Компания уже запустила демо-чат на базе этого чипа (chatjimmy.ai), где пользователи могут лично убедиться в мгновенном ответе нейросети.

Комментарии экспертов и аналитиков:

1. Проблема гибкости vs Эффективность

Эксперты (например, с Hacker News и Reddit) отмечают, что главный минус — нулевая гибкость. Если вы захотите запустить другую модель, вам придется покупать новый чип. Однако Taalas утверждает, что их процесс проектирования позволяет создать чип под новую модель всего за 2 месяца, что сопоставимо с циклом обновления ПО в крупных корпорациях.

2. Технологический прорыв в архитектуре

Аналитики из EE Times подчеркивают, что Taalas вернулся к принципам «структурированных ASIC». Они объединили логику и хранение данных на одном кристалле с плотностью DRAM. Это позволяет обходиться без дорогой и дефицитной памяти HBM, жидкостного охлаждения и сложных систем межсоединений.

3. Будущее «разумных» агентов

Саймон Уиллисон (известный разработчик и эксперт) отмечает, что такая скорость (17k токенов/сек) делает бессмысленными привычные чат-интерфейсы, так как текст генерируется быстрее, чем человек успевает моргнуть. Это открывает путь к ИИ-агентам, которые «думают» и действуют в реальном времени, не заставляя пользователя ждать.

4. Скепсис по поводу масштабирования

Некоторые специалисты указывают на сложность упаковки больших моделей (например, Llama 400B или DeepSeek 671B) в такую архитектуру. Для модели на 671 млрд параметров потребуется синхронная работа около 30 чипов HC1, что может частично нивелировать преимущество в энергопотреблении и простоте.