Новое поколение low-level оптимизации: Как no-CUDA движок выжимает терафлопсы из бесплатного CPU через bfloat16-ядро

Привет, DTF. Пока индустрия застряла в тупике экстенсивного роста (когда для любой задачи просто покупают видеокарту побольше), я решил доказать, что архитектурный подход и низкоуровневый C++20 сильнее любого маркетинга.


Встречайте обновлённую и глубоко модернизированную технологию no-CUDA вычислений, которая заставляет переосмыслить лимиты обычных процессоров.


Я обновил ядро своего движка и протестировал его на экстремальной нагрузке — массив на 150 000 000 объектов пролетает на обычном двухъядерном Intel Xeon в бесплатном Google Colab так, будто это не процессор, а квантовый чип.


В чём суть новой улучшенной технологии?


1. Ультра-плотное квантование в bfloat16:

Мы не просто сжимаем данные. Архитектура нового ядра упаковывает 16-битный формат Brain Floating Point так, что кэш процессора L1/L2 работает без промахов (Cache Misses). Потребление оперативной памяти RAM упало ровно в 3 раза, освобождая ресурсы под гигантские масштабы.


2. Параллельный стриминг через AVX2/SIMD:

Код задействует векторные инструкции на полную мощность. Данные обрабатываются не поочередно, а колоссальными пачками за один такт процессора.


3. Полный обход ограничений интерпретатора:

Никаких тормозов Python и тяжелого бэкенда. Через pybind11 мы создали прямую инъекцию плюсового движка. Всё управление и запуск идут из удобного блокнота в браузере (я спокойно тестирую и слежу за бенчмарками с обычного планшета), а вычисления выполняются на чистой скорости ассемблера.


Эта технология доказывает: вместо того чтобы переплачивать Nvidia за видеопамять, можно эффективно утилизировать каждый транзистор бесплатного CPU.


Весь исходный код архитектуры полностью открыт. Готовый шаблон блокнота для моментального теста в одну ячейку лежит в репозитории:

👉 https://github.com/nlozkina19-crypto/vector-zero-compute


Залетайте оценивать масштабы оптимизации. Как думаете, за такими гибридными low-level технологиями будущее, или индустрия так и продолжит закидывать любые проблемы миллиардами долларов на покупку GPU? Жду вас в комментариях!

Начать дискуссию