Охладительная статья про DeepSeek!

Учёные, как всегда, опять изнасиловали всех журналистов, которых только нашли, из-за чего мир столкнулся с феноменом влияния DeepSeek на акции технокомпаний США. Сейчас я вам доходчиво объясню почему нельзя на это вестись, и почему сейчас лучшее время для скупки просевших акции NVIDIA!

Правда ли, что DeepSeek r1 лучше o1? Нет, не правда. Болтает, может, и приятно, но на конкретных бизнес-задачах он на уровне между 4o и 4o-mini. Да, это предварительные результаты бенчмарка v2

Да, там есть возможность поразмышлять вволю. Да, DeepSeek пользуется этой возможностью и размышляет только так. Да, он хорош в математике и коде, в этом он почти на уровне o1, но по совокупным качествам o1 заметно лучше. Этому есть доказательства и на арене с включённым Style Control (который нужен, чтобы избежать присвоение более высокой оценки моделям, которые были заточены под бенчмарк).

Но тут вы скажите: ты не учитываешь цену!

И ведь правда, DeepSeek r1 заметно дешевле o1. Как у них экономика сходится? А тут начинаются интересные нюансы, про которые журналисты не всегда упоминают. Идем в Wiki статью про DeepSeek:

DeepSeek - это китайская лаборатория искусственного интеллекта, которая разрабатывает большие языковые модели с открытым исходным кодом. DeepSeek в значительной степени финансируется китайским хедж-фондом High-Flyer, основанным и управляемым Лян Вэньфэном из Ханчжоу, Чжэцзян.

Запомнили пока этот момент. Далее давайте обратим внимание, а сколько же стоит инференс (работа) модели у провайдеров! Это ведь опенсорс модель, а потому разные провайдеры могут запускать её на своих серваках и продавать доступ к ней. Так по какой же цене они её хостят? По той же, что и DeepSeek? А вот и нет. Если мы пойдем на OpenRouter и сравним цены на DeepSeek от разных конкурентов, то получится интересная картинка:

DeepSeek хостят ее с крошечным контекстом, никаким throughput и вообще не в силах продолжать этот аттракцион невиданной щедрости (желтый статус - качество просело). Теперь вспоминаем цитату с википедии, которую я привёл выше. Лабу DeepSeek крышует хедж-фонд High-Flyer. А из этого следует два вывода:

- Им не обязательно, чтобы модели окупались.

- Они могут заработать денег, если выпустят такие новости, от которых мировые рынки зашатает. Ведь High-Flyer зарабатывает на покупке и продаже акций. Но тут уже конспирологией попахивает. Так что не будем задерживаться.

Давайте лучше поглядим на другие факты!

Как вы помните, DeepSeek говорит, что тренила модель на паре тысячах H800. Это специально замедленные санкциями карты для Китая. Пока одни удивились чудесам оптимизации, другие сказали - брехня. Например CEO ScaleAI Александр Ванг говорит, что на самом деле у компании есть кластер с 50к H100 (неплохо, мягко говоря), но они не могут это разглашать из-за текущих условий экспорта США. Маск с ним согласился.

О том, что Китай обходными путями покупает карты H100, и так все знали, но если китайские компании будут кричать об использовании этих карт, то это лишь будет приводить к ужесточению контроля со стороны Штатов исполнения санкций. Но заявление Александра Ванга подверглось довольно аргументированной критике, так что не будем особо на него полагаться. Если кому интересно, можете почитать тут:

api.dtf.ru

DeepSeek FAQ

На даже если это всё правда, это не отменяет того факта, что модель потенциально интересная, но это не настолько переворот, как про это пишут. А в бизнес-задачах даже не самая оптимальная (не забываем про размер). Можно получить качество лучше просто разбив workflow на несколько небольших логических шагов для модельки послабее. Вообще, конечно, история с реакцией рынков на новости о DeepSeek V3 и R1 это пример глупости помноженной на дилетантизм и истеричную природу массового сознания в эпоху кликбейт-экономики.

Коротко по тезисам:

1. Нет, DeepSeek не «умнее на голову» всех моделей. В разных бенчмарках результаты разные, но в среднем GPT-4o и Gemini-2 лучше. Даже в результатах, опубликованных в статье авторов DeepSeek ( https://github.com/deepseek-ai/DeepSeek-V3/blob/main/figures/benchmark.png ) можно заметить, что в ряде тестов модель уступает, например, GPT-4o от мая 2024 года, то есть модели, которая в ChatBot Arena сейчас на 16-м месте.

2. Нет, на обучение DeepSeek не ушло 6 млн долларов «в 100 раз меньше, чем на GPT-4». В 6 млн долларов обошёлся финальный запуск обучения опубликованной модели. Тут не учитывались никакие предыдущие эксперименты, ни предыдущие версии модели, ни время людей. Чистый вычислительный бюджет на финальный запуск обучения. Эта сумма +/- такая же, как у моделей того же класса.

3. Непонятно, за что пострадала Nvidia :)) Ну так-то, конечно, так им и надо, пускай снижают цены на железо, но учился-то DeepSeek на железках того самого Nvidia. И нет, теперь их не нужно меньше. И вычислительный бюджет на обучение там +/- обычный и на инференс такой большой модели (а это, напомню MoE с 671 млрд параметров, где при генерации токена используется 37 млрд параметров, то есть цена инференса там примерно как у 70B dense-модели) нужно много железа. И, естественно, успех DeepSeek отмасштабируют, вкинув ещё больше железа и сделав модель больше

4. В некоторых источниках пишут, что DeepSeek якобы полностью решил проблему «галлюцинаций». Nyet

5. Без o1 и Llama 3 не было бы вашего DeepSeek-a. Рассуждать модель учили с помощью o1 (создание которого обошлось в миллиард-другой), а версии моделей до 70b базируются на Llama 3 (создание которой обошлось тоже примерно в миллиард долларов). Читайте об этом статью самой DeepSeek: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

Я думаю, что паника и шумиха случилась из-за того, что на западе обычно плохо знают про состояние дел в китайском ML, среди многих американских и европейских специалистов наблюдалось немного пренебрежительное и снисходительное отношение к Китаю в области ИИ. Дескать: ну что они там могут сделать, клепают свои низкокачественные плохо воспроизводимые работы, куда им с белым человеком тягаться? Всё это умножилось на антикитайскую риторику властей США, а при Трампе фокус на Китае как на главном противнике усилился. Помните истерическую статью Ашенбреннера? Теперь вот Гари Маркус вопит, требует наказать Цукерберга за Llama, дескать из-за опен-сорса китайцы украли все секреты. Это, конечно, типичный пример того, как валят с больной головы на здоровую. Виноваты в недостаточном прогрессе открытых моделей в США скорее люди типа Маркуса, со своей истерикой про опасности ИИ, запретительными и просто глупыми регуляторными инициативами и пр. "Знает кошка, чьё мясо съела"

Ну а в целом акции отрастут, ресурсы выделят, идеи получат широкое распространение, модели будут становиться лучше, прогресс не остановить.

Но вообще забавно, что шиза с DeepSeek дошла до такого уровня, что вчера об этом даже говорил Трамп: