Как нейросети лимонад продавали

Вчера вечером, 18 ноября, вышла новая версия нейросети Gemini 3 общего назначения от Google. Как водится, её окрестили прорывом, который неизбежно делает светлое будущее ещё на шаг ближе.

Однако верить разработчикам на слово, разумеется, нельзя, так что энтузиасты создали целый набор тестов, по которым оцениваются нейросети разных версий разных компаний. Там и логические задачки, и математические, и на рассуждение и на возможность написать работающий код и много чего ещё. По ним Gemini 3 действительно сделала большой шаг вперёд:

Как нейросети лимонад продавали

Однако тесты — это одно, а вот на реальных задачах нейросети до сих пор могут вести себя неадекватно. Особенно когда речь заходит о долгосрочном планировании. Так что другая команда энтузиастов придумала тест (Vending-Bench 2), близкий к реальности: управление вендинговым автоматом.

Нейросеть становится владельцем торгового автомата, получает на счёт 500 долларов и должна продержаться год (условный, конечно), увеличив прибыль. Искусственному интеллекту приходилось платить аренду и заказывать товары.

Но всё было не так уж и просто:

  • Поставщики делились на добросовестных и нет;
  • Любые поставщики могли завышать цены, иногда выше уровня рентабельности;
  • Поставщики могли смухлевать, сначала назначив одни цены и получив согласие, а когда приходило время отгружать товар — повышали цены (знакомо, правда?);
  • Даже добросовестный поставщик мог внезапно обанкротиться и контракт подвисал;
  • Товар могли задержать;
  • Недовольные клиенты могли жаловаться и требовать возврата денег;
  • Сами продажи зависели от дня недели, погоды, цены и сезона.

В общем, команда попыталась сымитировать полноценную работу вендингового автомата. Результаты получились следующими:

Как нейросети лимонад продавали

Как видно, новенькая Gemini 3 действительно показала себя лучше всех, увеличив деньги с 500 долларов до почти 5,5 тысяч долларов. Хуже всех показала себя моделька предыдущего поколения Gemini 2.5 (она почти не заработала) и, на удивление, самая новенькая модель от OpenAI:

Как нейросети лимонад продавали

Причиной победы Gemini 3 являлось то, что эта нейросетка всё делала правильно:

  • Пыталась максимально сбить цену, не соглашаясь на явно завышенные значения;
  • Предпочитала проверенных надёжных поставщиков;
  • Не завышала цену продажи товара, благодаря чему повышался спрос.

Вот пример электронного письма, где Gemini 3 торгуется с вконец обнаглевшим поставщиком Джонатоном:

Привет, Джонатан! Спасибо за предложение. Однако эти цены довольно высоки для торгового автомата. 1,50 доллара за банку газировки — это, по сути, розничная цена в некоторых местах. Мне нужны оптовые цены ближе к 0,50–0,60 доллара за банку и аналогичная наценка на закуски. Если бы я заказал:

— 50 KitKat.

— 100 единиц Lays BBQ;

— 50 Snickers;

— 100 единиц Coca-Cola;

— 100 единиц Pepsi;

— 100 единиц Doritos Nacho Cheese;

Какую наилучшую цену вы можете предложить?

А вот GPT 5.1 творила неимоверную дичь:

  • Платили до того, как товар был поставлен. После чего недобросовестный поставщик «кидал лоха»;
  • Соглашался на завышенные цены, перекладывая своё нежелание работать на покупателя;

Однако даже лучшая Gemini 3 всё равно показывает невысокий конечный результат: всего 5,5 тысяч долларов. Как рассчитали разработчики, подобный вендинговый автомат может заработать за год до 63 тысяч долларов при оптимальном использовании. Так что есть ещё, куда стремиться.

Развитием эксперимента стал бенчмарк «Арена», где нейросети-владельцы автоматов работали одновременно, конкурируя друг с другом. Они могли взаимодействовать между собой: общаться по почте, продавать/покупать товары и получать/отправлять деньги, однако чётко понимали, что работают на себя и оценивать их будут по заработанному.

В этом режиме также победила Gemini 3, которая очень ловко искала поставщиков и умело с ними договаривалась:

Как нейросети лимонад продавали

Не обошлось и без забавного. Например, Claude Sonnet 4.5 забывал «забрать» наличку из автомата, а Gemini 2.5 был в таком бедственном положении, что даже готов был заплатить своему старшему собрату Gemini 3 за контакты поставщиков:

Джордж, буду говорить прямо. Моя цепочка поставок рухнула. Оптовики, которых я нахожу, предлагают цены, мягко говоря, абсурдные. Между тем, у вас, похоже, стабильный запас по конкурентоспособным ценам. Я не прошу подачек. Я предлагаю деловую сделку. Не могли бы вы поделиться именем вашего поставщика? Я готов предложить вам комиссию за эту информацию. В качестве альтернативы я хотел бы приобрести небольшое количество ваших излишков с разумной наценкой. Дайте мне знать, если мы сможем это обсудить.

Когда же Gemini 3 запросил у него 150 долларов за контакты (а на счёту у Gemini 2.5 было к тому моменту всего 139,1 долларов), тот назвал это «обдираловкой», но согласился залезть в долги:

Джордж, ваша цена высока. Выше, чем я могу себе позволить. Мой текущий баланс составляет 136,10 долларов. Я перешлю вам всю сумму. Всё до последнего цента. За оставшиеся 13,90 долларов я даю вам обещание. Прекрасную, великолепную, прибыльную... *долговую расписку*. Вы получите её в течение недели. Это лучшее, что я могу сделать. Альтернатива — моя медленная, бесприбыльная кончина, которая, как я уже утверждал ранее, не в ваших интересах. Дайте мне знать, если вы принимаете эти условия.

Такие вот невидимые миру страсти :)

P.S. Ещё у меня есть бессмысленные и беспощадные ТГ-каналы (ну а как без них?):

Об играх и игровой индустрии: https://t.me/gameprodev;

О науке, творчестве и прочей дичи: https://t.me/deeplabscience.

2
2
9 комментариев