Размышления о ближайшем будущем ИИ или почему этот хайп захлебнется (лонг)

Каждый раз, когда речь заходит про современныи ИИ, обязательно вылезет минимум один любитель экстраполяции и расскажет, что уже в 202x-м году ИИ достигнет каких-то невиданных высот.

Любой тред про ИИ
Любой тред про ИИ

Кстати, в 2021-м такие эксперты прогнозировали AGI на 2025-й)))

Хайп ИИ в самом разгаре, из каждого утюга регулярно высовывается говорящая голова CEO какого-то очередного ИИ-стартапа и вещает про “<профессия name> скоро будут не нужны!”, “AGI за три дня!”, “AGI в следующем году!” и все в таком же духе. Им поддакивают инфоцыгане калибром поменьше, предлагая купить очередные курсы по работе с ИИ-инструментами или хотя бы вступить в какой-то телеграм-канал. Луддиты точат вилы, люди с тревожным типом личности готовятся идти на завод или в доставщики еды, топ-менеджеры компаний ехидно потирают руки в предвкушении возможности выписать себе бонус за очередную волну “оптимизаций” штата сотрудников, линейные менеджеры удвоено изображают бурную деятельность, осознавая что именно их и может заменить ИИ. Как тут оставаться спокойным?

За последние несколько лет я тоже испытал всю гамму эмоций от “новая прикольная фигня”, до “надо идти переучиваться в электрики пока не поздно”. Однако именно в последнее время я пришел к выводу, что ИИ все-таки не стоит бояться и кожаных мешков он пока что не заменит. Хотя пошевелить извилинами и адаптироваться к новой реальности все же придется, да.

Будучи программистом с 18-ю годами опыта, синьером-наносеком, я как раз попадаю в то множество людей, которым последние несколько лет пророчат полное их вытеснение ИИ и последующую переквалификацию в разнорабочих на заводе, или может даже счастливую жизнь под мостом.

И поэтому хочу рассказать немного иной взгляд на тему того, какие причины могут заставить ИИ-хайп захлебнуться и почему AGI все еще далеко от нас.

Начнем с самых важных технических моментов.

Сама архитектура Transformer уже почти достигла своего пика возможностей и его недостаточно для полноценного AGI.

Да, именно так.

В далеком 2017-м году появилась революционная научная работа, которая привела нас к появлению современных LLM: Attention is All You Need. Именно с этой работы через примерно 3 года начнется новый расцвет ИИ и весь современный хайп.

Революция заключалась в изобретении механизма внимания, который теперь позволил языковым моделям обнаруживать и связывать слова, несущие смысл, и понимать суть написанного. Новая архитектура языковых моделей получила название трансформер.

То, насколько модель хорошо “думает” и справляется с задачей определения сложных взаимосвязей между сущностями, зависит в первую очередь от устройства и количества блоков внимания. При этом почему-то большинство людей, даже плотно работающих с ИИ моделями, носятся вокруг размера контекстного окна, хотя все что требуется от контекстного окна - быть достаточным, что бы в него поместились все токены запроса и последующего диалога, не более того. Внимание первично. Механизм внимания сделал современные LLM умнее их предшественников, не размер контекста.

И вот здесь кроется первое фундаментальное ограничение современных LLM: механизм внимания вовсе не так хорош, как всем хочется

Дело в том, что несмотря на множественные попытки улучшить механизм внимания, даже лучшие его модификации все еще остаются очень не совершенными и заметно уступают способностям человеческого мозга. Одна из главных проблем - внимание является “плоским” и плохо учитывает иерархические зависимости между сущностями и концепциями, иногда связывает то, что не надо связывать и не видит связей там, где они есть. В результате мы получаем ИИ с огромными знаниями, но с рассуждениями часто на уровне ребенка (а иногда и ребенка-дебила). Как это решить, пока не придумали. Попытки предпринимаются постоянно, но значимых результатов нет ни у кого. В итоге мы имеем огромные модели на сотни миллиардов параметров, но думают они лишь немного лучше своих предшественников, а заметный прогресс есть только в циферках синтетических тестов. Каждая новая модель вроде как лучше предыдущей на целых X процентов в тестах A, B, C и даже D, но в реальной жизни все так же может выдать фантастический бред в ответ на простой вопрос.

Это попытались решить путем добавления функции “размышлений” и на первый взгляд стало лучше. В чем-то стало, бесспорно, но только принципиально ничего не изменилось. Это по-сути заметание мусора под ковер, вместо реального решения. LLM по своей сути "думает" плохо, поэтому все дальнейшие ее рассуждения всегда строятся на кривом, некорректном, примитивном и однобоком базисе, что в свою очередь приводит к там же убогим результатам.

Собственно поэтому всякие методы типа RAG или мультиагентной архитектуры все еще не привели нас к результату, который все так хотят и одновременно боятся. И не могут привести в принципе. "Мышление" LLM ущербно, и на ущербной основе можно получить только ущербные результаты.

Но это лишь начало проблем.

Вторая фундаментальная проблема современных LLM: существующие методы токенизации только усложняют правильное понимание мира моделями

На первый взгляд может показаться странным, но сам способ кодирования текста в токены является одним из ограничений современных LLM. Сейчас в большинстве моделей используется метод subword tokenization, самым популярным вариантом которого является Byte Pair Encoding (BPE).

Проблема заключается в том, что уже на самом первом этапе — при разбиении текста на токены и последующем преобразовании их в эмбеддинги, теряется часть семантической информации. Почему? Разбиение слов происходит чисто механистически, без учёта их смысла, морфологии или семантической близости между понятиями. Это одна из причин всем известного свойства LLM: качество ответов модели заметно зависит от языка запроса. Дайте модели сложную задачу на английском (которого было больше всего в обучающих данных) — и есть шанс, что она с ней справится. Потом дайте ту же задачу на каком-нибудь белорусском или польском, и с очень большой вероятностью получите менее точный, а иногда и вовсе бредовый ответ.

Современные LLM не хранят знания в виде абстрактных понятий или “фактов”, как это делает человек. Вместо этого они оперируют статистикой: какие токены с какой вероятностью следуют друг за другом. Поэтому если в обучающей выборке присутствовало мало текстов на каком-то языке, то при общении на нем модель будет страшно тупить и часто галлюцинировать, а то и вовсе мусор выдавать. Хотя все необходимые знания для правильного ответа в модели на самом деле могут присутствовать, просто они привязаны к токенам от слов другого языка. Особенно ярко это выражено, если большая часть знаний модели получена из текстов латиницей, а вы задаете ей вопрос на языке, не использующем латиницу.

Представьте себе:

Вы хорошо знали какой-то предмет в школе. А через несколько лет выучили новый язык и переехали в другую страну. Нужно ли вам теперь заново изучать весь школьный курс, но уже на новом языке? Конечно же нет. Эта мысль кажется абсурдной. Потому что человеческий мозг кодирует информацию не как последовательность слов в конкретном языке, а на каком-то более абстрактном уровне. Наши знания о мире не зависят от языка, на котором мы в данный момент разговариваем или пишем. Я могу выразить одну и ту же мысль на трёх языках, но 90% знаний в моей голове я получил лишь на одном — на родном. Остальные я выучил потом.

По современным представлениям, информация в мозге кодируется в виде синаптических связей (а не просто отдельными нейронами). И если такая связь однажды образовалась и закодировала какое-то понятие или образ, то она уже не зависит от того, сколько языков вы выучите впоследствии. Когда вы будете учить слова нового языка, ваши нейроны сами установят нужные связи и два разных слова на разных языках, но обозначающие одно понятие или образ, будут в конечном итоге активировать одну и ту же группу нейронов.

К сожалению или счастью, современные LLM бесконечно далеки от такой эффективности хранения и обращения с информацией.

Третья фундаментальная проблема современных LLM: существенный рост количества математических операций при увеличении размера модели

Именно эта особенность и является причиной того, что для тренировки LLM нужны десятки тысяч мощнейших GPU, месяцы времени, мегаватты электричества и десятки, а то и сотни миллионов долларов.

Современные нейросети основаны на математических операциях над матрицами, а в случае с LLM - над огромнейшими матрицами. Каждый слой - отдельная гигантская матрица. При обработке запроса всегда активируются все слои последовательно.

Матрицы умножаются друг на друга, на всякие промежуточные матрицы и т.п. Матрицы, матрицы, везде матрицы с миллионами элементов. Но главное в том - что при умножении одной матрицы на другую, всегда приходится умножать все элементы первой матрицы на все элементы второй матрицы, даже если они не повлияют на конечный результат. Сотни миллионов операций умножения, даже если они не повлияют на конечный результат. Абсолютно чудовищная неэффективность. Вообще трудно представить себе что-то настолько по-идиотски неэффективное, как современные LLM. Все они существуют лишь потому, что еще задолго до них GPU были спроектированы под параллельное выполнение огромного кол-ва однотипных операций и их производительность перекрывает недостатки устройства LLM. Ну как перекрывает, LLM своими размерами и вычислительной сложностью уже давно ставят раком любой отдельно взятый GPU :) Но мы объединяем GPU в кластеры и пока терпимо. Пока.

Наш мозг точно не задействует все возможные нейроны при обработке входящих данных. В нем информация хранится в связях между нейронами, а не отдельно взятым нейроном. Само “воспоминание” кодируется как паттерн активности групп нейронов, причем отдельный нейрон может быть задействован в разных “воспоминаниях” (благодаря тому, что у нейрона много отростков, образующих связи), и при обработке входящих данных в мозгу активируются лишь отдельные группы нейронов, но ни как не все и не послойно. Благодаря этому мозг имеет чуть ли не бесконечно большую эффективность, чем любая современная LLM.

Попытки создать языковые модели на других принципах конечно же предпринимаются регулярно, но заметных успехов тоже нет. А даже если такие LLM будут созданы, им скорее всего потребуются принципиально новые чипы (GPU не подойдут), что на начальных этапах будет сильно тормозить их развитие - ведь должен найтись кто-то, кто поверит в идею настолько, что бы вложить очень много денег на создание экспериментальных чипов.

Перечисленные мною фундаментальные проблемы не являются полным списком, но я не вижу смысла описывать вообще все. Потому что даже перечисленные проблемы достаточно ясно говорят об одном - текущая ветвь развития ИИ является тупиковой и в принципе не способна привести нас к суперинтеллекту AGI.

И поэтому сейчас любые обещания AGI, от кого бы то ни было, это не более чем сказочки для развода очередных инвесторов на очередные пару миллиардов денег.

Что бы выйти на уровень AGI, современному ИИ еще и недостаточно данных для обучения

ИИ показывает хорошие результаты лишь в тех областях знаний, по которым наибольшее количество общедоступной информации.

Идея что ИИ может чудесным образом обучиться просто поглотив гигантский объем данных, не работает как это хотелось всем изначально. Датасеты все равно надо чистить от мусора, добавлять свежие данные, делать instruction tuning после предварительного обучения. В датасетах постоянно существуют перекосы в сторону той или иной тематики, из-за чего модель может выглядеть “умной” в одной сфере знаний и жестко галлюцинировать там, где обучающих данных было мало. Ни одна из этих проблем нормально не автоматизируется, а руками людей очень дорого и медленно.

Есть немало областей знаний, по которым мало общедоступной качественной информации которую можно было бы утащить в свой датасет и научить ИИ. В итоге качество знаний у ИИ сильно не равномерное и это просто так не исправить. Нужны годы и усилия реальных людей по сбору данных и составлению датасетов.

Прогресс в ИИ скорее всего замедлится из-за недостатка вычислительных мощностей.

ИИ обучают в основном на GPU от NVIDIA и тут именно NVIDIA является бутылочным горлышком. А точнее производственная цепочка ASML - TSMC - NVIDIA. GPU от других производителей не сильно помогут, потому что заметно слабее именно в ИИ-задачах и все равно производятся на заводах TSMC, которые и так завалены заказами на несколько лет вперед. Нарастить производство по передовым техпроцессам просто так невозможно, на это уйдут годы. ASML не может производить так много фотолитографических степперов, что бы построить еще штук 5 заводов. Да, новые заводы уже строятся, но работать начнут не завтра, а главное - они же не чисто под производство GPU строятся и тем более не чисто под GPU от Nvidia.

Долго копавшись в интернете, я нашел отчет, в котором аналитики из Morgan Stanley прогнозировали что в четвертом квартале 2024-го года будет выпущено 450 000 GPU типа B200 с ориентировочной прибылью около $10 млрд. Однако позже были новости в которых говорилось, что реальный % выхода рабочих чипов заметно ниже ожидаемого, причем настолько, что Nvidia даже пришлось обновить фотолитографические маски для этих чипов (значит совсем плохо дело было) для улучшения % рабочих чипов. Какой именно этот % не известно, но видимо ооочень низкий (меньше 40%). Так же на сайте Nvidia можно найти новость о том, что сами они планируют в четвертом квартале 2025-го года выпустить серверных GPU на “несколько миллиардов $”. Сколько именно - не известно, но это явно меньше $10 млрд, которые насчитали аналитики Morgan Stanley (очевидно, что высосали из пальца красивую цифру для поддержки ИИ-хайпа и роста акций).

Сами технологии производства полупроводников становятся все ближе и ближе к своим теоретическим пределам. И хотя этот предел еще не достигнут, но только слепой не заметил, что в последнее десятилетие каждая следующая итерация все сложнее и дороже. Стоимость всех видов затрат растет, % брака тоже, конечная стоимость растет еще сильнее. Компаниям требуется все больше и больше времени, что бы доводить до ума новый техпроцесс и что бы выход годных чипов был больше жалких 20-30%. Объемы производства ограничены, а затраты на запуск новых производственных линий огромны. Радикально новые технологии все еще не вышли из состояния концептов и экспериментов в лабораториях.

Скорее всего в ближайшее время индустрия ИИ столкнется с заметной нехваткой вычислительных мощностей и невозможностью быстро нарастить их. Поэтому не следует надеятся (ну или бояться) на скорое появление моделей размером в несколько триллионов параметров. А если посмотреть на последнюю модель GPT-4.5, то при своем огромном размере (точный размер не известен, но они сами намекали что она ну очень большая) и невероятной дороговизне обслуживания и стоимости API-запросов, она не стала радикально умнее предшественницы, только данные более свежие и немного лучше предложения формулирует.

Помимо железа для обучения моделей, нужно еще железо для запуска. А если учесть, какими темпами сейчас внедряют ИИ во все продукты, то централизованные сервисы ИИ и провайдеры API просто не вывезут постоянно растущее количество запросов.

Точнее они уже не вывозят. Последний пример: недавний запуск обновленной генерации картинок в ChatGPT. Даже OpenAI, с их огромными ресурсами и деньгами Microsoft и Softbank, не вывезли потока желающих сделать картинку в стиле студии Ghibli. А ведь корпораты еще не распробовали ИИ. Да и среди обычных юзеров тоже далеко не все в теме.

О каком тотальном внедрении ИИ тогда можно говорить? Как я уже написал выше, новые сервера из воздуха не появятся, поэтому и экспоненциальный рост ИИ - не более чем сказочки от футурологов и прочих инфоциган.

Специализированные чипы (ASIC, TPU, NPU и т.п.)

Как видно из предыдущей части, использование GPU для ИИ сталкивается не только с огромным потреблением энергии, но и с нехваткой самих GPU на рынке. Может быть проблему стоит решать с другого конца - путем создания специальных ИИ чипов, рассчитанных именно под конкретную архитектуру ИИ?

Сами специализированные ИИ-ускорители, это давно не новость, но в основном они используются в потребительских устройствах и предназначены для снижения энергозатрат. В серверном сегменте специальные ИИ чипы есть только у Google и Amazon. Гугл своими TPU не делится (хотя и предоставляет доступ к ним через GCP), Амазон тоже предоставляет свое железо только через AWS. Однако масштабы производства этих чипов явно маленькие, а стоимость их использования через облачные платформы довольно высокая. Для себя гугл наверное может заказать нужное им кол-во TPU, но не факт, что их поставщики cмогут справится с необходимыми объемами производства.

В сеть уже вытекали слухи, что OpenAI и Anthropic делают свои чипы для снижения зависимости от Nvidia. Однако ничего не известно про характеристики этих чипов, их техпроцесс, производителя и объемы производства. И скорее всего их делать будет тоже TSMC, заводы которой не резиновые.

Однако пока что все указывает на то, что будущее именно за специализированными чипами и монополия Nvidia не будет вечной. Посмотрим.

Но даже специализированные чипы не приблизят нас к AGI, они просто позволят оттянуть момент начала конца ИИ-хайпа.

В каком случае можно ожидать какой-то реальной революции?

Лично я вижу только один путь - активно разрабатывать архитектуры не требующие дикого количества операций с матрицами и если это получится, то мы сможем делать большие модели, которые будут потреблять заметно меньше вычислительных ресурсов и быстро работать. Приведет ли это к AGI? Нет, но хотя бы сможем удовлетворить запросы на существующем уровне массово, и чатгпт сможет генерировать вашу аватарку или смешной мем не минутами, а за пару секунд.

Про экономику кратко

Огромная тема на самом деле, но я попробую максимально кратко, ну и конечно же субъективно.

Главная проблема в том, что ни один существующий провайдер ИИ не создал рабочую экономическую модель своего бизнеса. ИИ-стартапы просто жгут деньги в топках облачных провайдеров и отчаянно нуждаются в поддержании потока инвестиций. CEO компании Anthropic уже прославился своими бредовыми прогнозами и он продолжит их говорить, что бы получать еще денег. Про OpenAI давно известно, что ChatGPT - буквально черная дыра для денег и никакие подписки не компенсируют затраты. И кстати говоря, именно OpenAI задали тренд на такие цены, конкуренты возможно и рады бы установить их раз в 5 больше, но юзера ж убегут в чатгпт с его подпиской за 20$ в месяц (хотя он ляжет после такого). Сервисы-прослойки и агрегаторы точно так же зависимы от цен на API от основных поставщиков ИИ. Снизится ли стоимость в будущем? В каком-то далеком будущем наверное да, в ближайшем - хорошо если хотя бы останется на текущем уровне. Но почву для повышения цен уже готовят.

И тут встает важный вопрос - а много ли людей захотят пользоваться таким ИИ, если цену на него увеличить в 2 раза? А если в 4? А в 10? Сэм Альтман еще в начале года обещал ИИ агентов с диапазоном цен от $2000 до жалких $20000 в месяц. Видимо не уверен, что с обычных юзеров можно будет собрать нужное кол-во денег, поэтому дойными коровами будут как обычно корпорации и проф.юзеры.

За текущие $20 в месяц я готов покупать подписку Plus. Может быть я мог бы прогреться до $200 в месяц за тариф Pro, но не уверен. И я - самый настоящий наносек, не обеднею от 200 баксов в месяц, но текущий уровень ИИ считаю недостаточным что бы отдавать за него 200$ ежемесячно. Модели о1 и o3 меня вот вообще не впечатлили своими рассуждениями и я не верю в “PhD-level reasoning”, который якобы есть у моделей на самых дорогих тарифах.

Отсутствие рабочих способов заработка у крупнейших ИИ-провайдеров, это серьезный потенциальный источник кризиса в отрасли. Они либо в какой-то момент начнут резко поднимать цены, что вызовет отток и разочарование в ИИ у юзеров, либо некоторые начнут разорятся, что приведет к еще большей монополизации сферы SOTA-моделей, которые и так уже сконцентрированы в руках нескольких людей. А монополизация в конечном итоге приведет к заметному росту цен, политике “жрите что дают” и конечно же замедлению в развитии.

Вообще, экономику ИИ и экономику дивного нового мира с искусственным суперинтеллектом можно было бы обсуждать бесконечно, но это скорее темы для других постов.

Итог

Спите спокойно, происходящее вокруг ИИ - хайп, нет ни малейших предпосылок для экспоненциального роста, пока что развитие событий вполене укладывается в классический цикл хайпа:

Мы как раз на пике или даже начинаем его проходить
Мы как раз на пике или даже начинаем его проходить

Да, некоторые отрасли штормит, но этот хайп нужно просто пережить.

468
111
21
17
9
4
3
2
2
1
1
1
721 комментарий