Я взломал ограничения Google Colab и разогнал бесплатный процессор до скоростей суперкомпьютера. Без видеокарт и CUDA.

Привет, DTF. Пока индустрия послушно заносит миллиарды Дженсену Хуангу за новые RTX, а корпорации скупают серверные GPU, я задался вопросом: неужели эпоха чистой, гениальной оптимизации кода умерла?


Спойлер: Нет. Я заставил обычный, кастрированный двухъядерный Intel Xeon в бесплатном Google Colab выдавать мощность, от которой плачут современные дата-центры.


Результат: обработка МАССИВА НА 50 000 000 ОБЪЕКТОВ ЗА 1.2 СЕКУНДЫ.


Как это работает и почему это легальный чит-код?

1. Полный отказ от CUDA и GPU. Вычисления идут чисто на процессоре.

2. Архитектура на C++20 с инъекцией в Python. Мы обходим вечный тормоз в виде GIL и заставляем ядра пахать на 100%.

3. Векторные инструкции AVX2. Процессор обрабатывает данные не поштучно, а огромными пачками за один такт.

4. Упаковка в bfloat16. Память RAM сжата почти в 3 раза, данные летят без задержек.


Пока остальные закидывают задачи деньгами и арендуют облачные фермы, этот движок доказывает: прямые руки и низкоуровневый код сильнее маркетинга.


Всё настроено так, что запускается в браузере за один клик (никакого локального ада со сборкой на ваших девайсах). Исходный код полностью открыт, шаблон для теста лежит здесь:

👉 https://github.com/nlozkina19-crypto/vector-zero-compute


Залетайте, ломайте счетчики бенчмарков. Жду айтишников в комментариях — объясните мне, почему так не делают крупные корпорации, если это работает быстрее их серверов?

10 комментариев