Новое поколение low-level оптимизации: Как no-CUDA движок выжимает терафлопсы из бесплатного CPU через bfloat16-ядро
Привет, DTF. Пока индустрия застряла в тупике экстенсивного роста (когда для любой задачи просто покупают видеокарту побольше), я решил доказать, что архитектурный подход и низкоуровневый C++20 сильнее любого маркетинга.
Встречайте обновлённую и глубоко модернизированную технологию no-CUDA вычислений, которая заставляет переосмыслить лимиты обычных процессоров.
Я обновил ядро своего движка и протестировал его на экстремальной нагрузке — массив на 150 000 000 объектов пролетает на обычном двухъядерном Intel Xeon в бесплатном Google Colab так, будто это не процессор, а квантовый чип.
В чём суть новой улучшенной технологии?
1. Ультра-плотное квантование в bfloat16:
Мы не просто сжимаем данные. Архитектура нового ядра упаковывает 16-битный формат Brain Floating Point так, что кэш процессора L1/L2 работает без промахов (Cache Misses). Потребление оперативной памяти RAM упало ровно в 3 раза, освобождая ресурсы под гигантские масштабы.
2. Параллельный стриминг через AVX2/SIMD:
Код задействует векторные инструкции на полную мощность. Данные обрабатываются не поочередно, а колоссальными пачками за один такт процессора.
3. Полный обход ограничений интерпретатора:
Никаких тормозов Python и тяжелого бэкенда. Через pybind11 мы создали прямую инъекцию плюсового движка. Всё управление и запуск идут из удобного блокнота в браузере (я спокойно тестирую и слежу за бенчмарками с обычного планшета), а вычисления выполняются на чистой скорости ассемблера.
Эта технология доказывает: вместо того чтобы переплачивать Nvidia за видеопамять, можно эффективно утилизировать каждый транзистор бесплатного CPU.
Весь исходный код архитектуры полностью открыт. Готовый шаблон блокнота для моментального теста в одну ячейку лежит в репозитории:
👉 https://github.com/nlozkina19-crypto/vector-zero-compute
Залетайте оценивать масштабы оптимизации. Как думаете, за такими гибридными low-level технологиями будущее, или индустрия так и продолжит закидывать любые проблемы миллиардами долларов на покупку GPU? Жду вас в комментариях!