ВИДЕОКАРТЫ БОЛЬШЕ НЕ НУЖНЫ ДЛЯ ИИ.
Тут незаметно произошел технологический рывок в нейросетях.
Рекордная скорость: Стартап Taalas (Торонто, Канада) представил чип HC1, который выдает невероятные 17 000 токенов в секунду на модели Llama 3.1 8B. Для сравнения, топовый Nvidia H200 выдает около 230-300 токенов в тех же условиях.
«Модель в кремнии»: В отличие от видеокарт, HC1 не «запускает» модель, а буквально содержит её веса, «вытравленные» прямо в транзисторах (hardwired). Это устраняет главную проблему современных вычислений — задержку при передаче данных между памятью и процессором.
Экономика: Заявлено, что чип в 20 раз дешевле в производстве и потребляет в 10 раз меньше энергии, чем решения от Nvidia. Стоимость генерации 1 млн токенов на HC1 оценивается всего в 0.75 цента.
Доступность: Компания уже запустила демо-чат на базе этого чипа (chatjimmy.ai), где пользователи могут лично убедиться в мгновенном ответе нейросети.
Комментарии экспертов и аналитиков:
1. Проблема гибкости vs Эффективность
Эксперты (например, с Hacker News и Reddit) отмечают, что главный минус — нулевая гибкость. Если вы захотите запустить другую модель, вам придется покупать новый чип. Однако Taalas утверждает, что их процесс проектирования позволяет создать чип под новую модель всего за 2 месяца, что сопоставимо с циклом обновления ПО в крупных корпорациях.
2. Технологический прорыв в архитектуре
Аналитики из EE Times подчеркивают, что Taalas вернулся к принципам «структурированных ASIC». Они объединили логику и хранение данных на одном кристалле с плотностью DRAM. Это позволяет обходиться без дорогой и дефицитной памяти HBM, жидкостного охлаждения и сложных систем межсоединений.
3. Будущее «разумных» агентов
Саймон Уиллисон (известный разработчик и эксперт) отмечает, что такая скорость (17k токенов/сек) делает бессмысленными привычные чат-интерфейсы, так как текст генерируется быстрее, чем человек успевает моргнуть. Это открывает путь к ИИ-агентам, которые «думают» и действуют в реальном времени, не заставляя пользователя ждать.
4. Скепсис по поводу масштабирования
Некоторые специалисты указывают на сложность упаковки больших моделей (например, Llama 400B или DeepSeek 671B) в такую архитектуру. Для модели на 671 млрд параметров потребуется синхронная работа около 30 чипов HC1, что может частично нивелировать преимущество в энергопотреблении и простоте.