Я взломал ограничения Google Colab и разогнал бесплатный процессор до скоростей суперкомпьютера. Без видеокарт и CUDA.
Привет, DTF. Пока индустрия послушно заносит миллиарды Дженсену Хуангу за новые RTX, а корпорации скупают серверные GPU, я задался вопросом: неужели эпоха чистой, гениальной оптимизации кода умерла?
Спойлер: Нет. Я заставил обычный, кастрированный двухъядерный Intel Xeon в бесплатном Google Colab выдавать мощность, от которой плачут современные дата-центры.
Результат: обработка МАССИВА НА 50 000 000 ОБЪЕКТОВ ЗА 1.2 СЕКУНДЫ.
Как это работает и почему это легальный чит-код?
1. Полный отказ от CUDA и GPU. Вычисления идут чисто на процессоре.
2. Архитектура на C++20 с инъекцией в Python. Мы обходим вечный тормоз в виде GIL и заставляем ядра пахать на 100%.
3. Векторные инструкции AVX2. Процессор обрабатывает данные не поштучно, а огромными пачками за один такт.
4. Упаковка в bfloat16. Память RAM сжата почти в 3 раза, данные летят без задержек.
Пока остальные закидывают задачи деньгами и арендуют облачные фермы, этот движок доказывает: прямые руки и низкоуровневый код сильнее маркетинга.
Всё настроено так, что запускается в браузере за один клик (никакого локального ада со сборкой на ваших девайсах). Исходный код полностью открыт, шаблон для теста лежит здесь:
👉 https://github.com/nlozkina19-crypto/vector-zero-compute
Залетайте, ломайте счетчики бенчмарков. Жду айтишников в комментариях — объясните мне, почему так не делают крупные корпорации, если это работает быстрее их серверов?