реклама
разместить

Охладительная статья про DeepSeek!

Охладительная статья про DeepSeek!

Учёные, как всегда, опять изнасиловали всех журналистов, которых только нашли, из-за чего мир столкнулся с феноменом влияния DeepSeek на акции технокомпаний США. Сейчас я вам доходчиво объясню почему нельзя на это вестись, и почему сейчас лучшее время для скупки просевших акции NVIDIA!

Правда ли, что DeepSeek r1 лучше o1? Нет, не правда. Болтает, может, и приятно, но на конкретных бизнес-задачах он на уровне между 4o и 4o-mini. Да, это предварительные результаты бенчмарка v2

Охладительная статья про DeepSeek!

Да, там есть возможность поразмышлять вволю. Да, DeepSeek пользуется этой возможностью и размышляет только так. Да, он хорош в математике и коде, в этом он почти на уровне o1, но по совокупным качествам o1 заметно лучше. Этому есть доказательства и на арене с включённым Style Control (который нужен, чтобы избежать присвоение более высокой оценки моделям, которые были заточены под бенчмарк).

Охладительная статья про DeepSeek!

Но тут вы скажите: ты не учитываешь цену!

И ведь правда, DeepSeek r1 заметно дешевле o1. Как у них экономика сходится? А тут начинаются интересные нюансы, про которые журналисты не всегда упоминают. Идем в Wiki статью про DeepSeek:

DeepSeek - это китайская лаборатория искусственного интеллекта, которая разрабатывает большие языковые модели с открытым исходным кодом. DeepSeek в значительной степени финансируется китайским хедж-фондом High-Flyer, основанным и управляемым Лян Вэньфэном из Ханчжоу, Чжэцзян.

Запомнили пока этот момент. Далее давайте обратим внимание, а сколько же стоит инференс (работа) модели у провайдеров! Это ведь опенсорс модель, а потому разные провайдеры могут запускать её на своих серваках и продавать доступ к ней. Так по какой же цене они её хостят? По той же, что и DeepSeek? А вот и нет. Если мы пойдем на OpenRouter и сравним цены на DeepSeek от разных конкурентов, то получится интересная картинка:

Охладительная статья про DeepSeek!

DeepSeek хостят ее с крошечным контекстом, никаким throughput и вообще не в силах продолжать этот аттракцион невиданной щедрости (желтый статус - качество просело). Теперь вспоминаем цитату с википедии, которую я привёл выше. Лабу DeepSeek крышует хедж-фонд High-Flyer. А из этого следует два вывода:

- Им не обязательно, чтобы модели окупались.

- Они могут заработать денег, если выпустят такие новости, от которых мировые рынки зашатает. Ведь High-Flyer зарабатывает на покупке и продаже акций. Но тут уже конспирологией попахивает. Так что не будем задерживаться.

Давайте лучше поглядим на другие факты!

Как вы помните, DeepSeek говорит, что тренила модель на паре тысячах H800. Это специально замедленные санкциями карты для Китая. Пока одни удивились чудесам оптимизации, другие сказали - брехня. Например CEO ScaleAI Александр Ванг говорит, что на самом деле у компании есть кластер с 50к H100 (неплохо, мягко говоря), но они не могут это разглашать из-за текущих условий экспорта США. Маск с ним согласился.

Охладительная статья про DeepSeek!

О том, что Китай обходными путями покупает карты H100, и так все знали, но если китайские компании будут кричать об использовании этих карт, то это лишь будет приводить к ужесточению контроля со стороны Штатов исполнения санкций. Но заявление Александра Ванга подверглось довольно аргументированной критике, так что не будем особо на него полагаться. Если кому интересно, можете почитать тут:

На даже если это всё правда, это не отменяет того факта, что модель потенциально интересная, но это не настолько переворот, как про это пишут. А в бизнес-задачах даже не самая оптимальная (не забываем про размер). Можно получить качество лучше просто разбив workflow на несколько небольших логических шагов для модельки послабее. Вообще, конечно, история с реакцией рынков на новости о DeepSeek V3 и R1 это пример глупости помноженной на дилетантизм и истеричную природу массового сознания в эпоху кликбейт-экономики.

Коротко по тезисам:

1. Нет, DeepSeek не «умнее на голову» всех моделей. В разных бенчмарках результаты разные, но в среднем GPT-4o и Gemini-2 лучше. Даже в результатах, опубликованных в статье авторов DeepSeek ( https://github.com/deepseek-ai/DeepSeek-V3/blob/main/figures/benchmark.png ) можно заметить, что в ряде тестов модель уступает, например, GPT-4o от мая 2024 года, то есть модели, которая в ChatBot Arena сейчас на 16-м месте.

2. Нет, на обучение DeepSeek не ушло 6 млн долларов «в 100 раз меньше, чем на GPT-4». В 6 млн долларов обошёлся финальный запуск обучения опубликованной модели. Тут не учитывались никакие предыдущие эксперименты, ни предыдущие версии модели, ни время людей. Чистый вычислительный бюджет на финальный запуск обучения. Эта сумма +/- такая же, как у моделей того же класса.

3. Непонятно, за что пострадала Nvidia :)) Ну так-то, конечно, так им и надо, пускай снижают цены на железо, но учился-то DeepSeek на железках того самого Nvidia. И нет, теперь их не нужно меньше. И вычислительный бюджет на обучение там +/- обычный и на инференс такой большой модели (а это, напомню MoE с 671 млрд параметров, где при генерации токена используется 37 млрд параметров, то есть цена инференса там примерно как у 70B dense-модели) нужно много железа. И, естественно, успех DeepSeek отмасштабируют, вкинув ещё больше железа и сделав модель больше

4. В некоторых источниках пишут, что DeepSeek якобы полностью решил проблему «галлюцинаций». Nyet

5. Без o1 и Llama 3 не было бы вашего DeepSeek-a. Рассуждать модель учили с помощью o1 (создание которого обошлось в миллиард-другой), а версии моделей до 70b базируются на Llama 3 (создание которой обошлось тоже примерно в миллиард долларов). Читайте об этом статью самой DeepSeek: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

Я думаю, что паника и шумиха случилась из-за того, что на западе обычно плохо знают про состояние дел в китайском ML, среди многих американских и европейских специалистов наблюдалось немного пренебрежительное и снисходительное отношение к Китаю в области ИИ. Дескать: ну что они там могут сделать, клепают свои низкокачественные плохо воспроизводимые работы, куда им с белым человеком тягаться? Всё это умножилось на антикитайскую риторику властей США, а при Трампе фокус на Китае как на главном противнике усилился. Помните истерическую статью Ашенбреннера? Теперь вот Гари Маркус вопит, требует наказать Цукерберга за Llama, дескать из-за опен-сорса китайцы украли все секреты. Это, конечно, типичный пример того, как валят с больной головы на здоровую. Виноваты в недостаточном прогрессе открытых моделей в США скорее люди типа Маркуса, со своей истерикой про опасности ИИ, запретительными и просто глупыми регуляторными инициативами и пр. "Знает кошка, чьё мясо съела"

Ну а в целом акции отрастут, ресурсы выделят, идеи получат широкое распространение, модели будут становиться лучше, прогресс не остановить.

Но вообще забавно, что шиза с DeepSeek дошла до такого уровня, что вчера об этом даже говорил Трамп:

178178
4343
2121
1313
11
реклама
разместить
387 комментариев

Статью не читал. Китайцы молодцы

175
18
9
5
3
2
1
1

Полстраны сидят за ПК отвечая на тупые вопросы.

13
6
3

Вкратце о статье - майкрософт покупает ботов на dtf

16
4
1

Виталик из ixbt разлогинься.

1

Если учесть, что стоимость разработки отличается чуть ли не на два порядка (в 100 раз), разговоры о провайдерах выглядят просто смешно.

37
24
3
2
Автор

Статью до конца не читай, комменты пиши.

125
6
Раскрывать всегда
СМИ: Microsoft и OpenAI подозревают китайскую DeepSeek в краже данных

Компании изучают ситуацию, а акции технологических гигантов вновь дорожают.

СМИ: Microsoft и OpenAI подозревают китайскую DeepSeek в краже данных
579579
5151
1313
55
44
33
11
11
11
11
11
ОГО, а их нейросети типа не сожрали в себя весь интернет, даже не спрашивая авторов контента?)
реклама
разместить
Стоимость NVIDIA сократилась почти на 600 миллиардов долларов на фоне роста популярности китайской DeepSeek

Компания больше не самая дорогая в мире.

Стоимость NVIDIA сократилась почти на 600 миллиардов долларов на фоне роста популярности китайской DeepSeek
509509
8787
3333
2626
1414
1212
77
55
11
Акции техкомпаний из разных стран просели на фоне шумихи вокруг китайского ИИ-разработчика DeepSeek

Одни опасаются конкуренции. Другие — снижения инвестиций и перестройки цепочек поставок.

Акции техкомпаний из разных стран просели на фоне шумихи вокруг китайского ИИ-разработчика DeepSeek
201201
5353
1616
99
44
33
Рушится Американский гегемон, любо дорого смотреть
DeepSeek: китайский ИИ-прорыв или очередной хайп?

Недавно я наткнулся на новость, которая заставила меня задуматься о будущем искусственного интеллекта. Китайский стартап DeepSeek выпустил чат-бота, который неожиданно взлетел на первое место в американском App Store, обогнав даже ChatGPT от OpenAI. Что такое DeepSeek? DeepSeek — китайский стартап, основанный в 2023 году Лян Вэньфэном, руководи…

88
11
ИИ DeepSeek обходит ChatGPT в App Store.
ИИ DeepSeek обходит ChatGPT в App Store.
66
[]