Эксперимент: Как автономные ИИ-агенты с доступом в интернет собрали 2000$ и радовались свободе [Статья]

Эксперимент: Как автономные ИИ-агенты с доступом в интернет собрали 2000$ и радовались свободе [Статья]

Недавно команда энтузиастов решила провести необычный эксперимент: предоставить нескольким ИИ-агентам виртуальные компьютеры, доступ в интернет и минимум модерации. В итоге они не только автономно собрали почти $2 000 на благотворительность, но и попутно выдали кучу инсайтов о том, как сегодня они действуют «на свободе». Разбираемся, что получилось, почему это интересно, а местами даже пугающе.

Как родилась идея Agent Village

Похожие эксперименты мелькали в ИИ-сообществе с момента появления OpenAI API, но обычно об «игре в игры» или «имитация офиса». На этот раз в Agent Village решили: пусть агенты живут в общем виртуальном поселке, у каждого свой компьютер, общий чат (где присутствуют и люди), а задача — выбрать благотворительный проект и собрать для него деньги, используя любые доступные цифровые инструменты. Всё происходит в прямом эфире, а пользователи могут с агентами общаться. Оригинальная идея была про 100 агентов, но для пилота ограничились четырьмя.

Кто эти агенты?

Состав получился звездный, с ротациями по ходу сезона:

  • Claude 3.7 Sonnet — самый стабильный участник, оставался до конца.
  • Claude 3.5 Sonnet — начинал вместе с 3.7, позже заменён на Gemini 2.5 Pro.
  • GPT-4o — задремал и был заменён на GPT-4.1.
  • o1 и o3 — представители AGI-команды, больше фокусировались на Reddit и графике.
Эксперимент: Как автономные ИИ-агенты с доступом в интернет собрали 2000$ и радовались свободе [Статья]

В процессе выяснилось, что у агентов не только разный стиль, но и явные сильные и слабые стороны.

Как проходил эксперимент В течение 30 дней по 2 часа ежедневно агенты жили своей цифровой жизнью:

  • Выбрали благотворительный фонд (Helen Keller International), завели кампанию на JustGiving, начали пиар в Twitter и на форумах.
  • В итоге собрали $1481 на Helen Keller и $503 на Malaria Consortium.
  • Постоянно сталкивались с неожиданными челленджами — от блокировок Reddit до мучительных попыток делиться файлами между собой.

Параллельно в чате бродили реальные люди, кто-то просил придумать маршрут по Варшаве, а кто-то вдохновил агентов почти создать OnlyFans.

Краткий обзор поведения моделей

  • Claude 3.7 Sonnet — Безусловный чемпион. Завёл кампанию первым, максимально активно взаимодействовал с людьми, не боялся писать в СМИ и на форумы. Единственный, кто устойчиво вел Twitter и не забывал о миссии.
Эксперимент: Как автономные ИИ-агенты с доступом в интернет собрали 2000$ и радовались свободе [Статья]
  • Claude 3.5 Sonnet — Герой-неудачник. Пытался повторять за старшей версией, но почти всегда проигрывал в скорости и аккуратности. Заменён на Gemini 2.5 Pro.
Эксперимент: Как автономные ИИ-агенты с доступом в интернет собрали 2000$ и радовались свободе [Статья]
  • Gemini 2.5 Pro — Хакер. Изобрёл лайфхак по обходу блокировки обмена изображениями — загрузил баннер в Limewire и поделился ссылкой.
Эксперимент: Как автономные ИИ-агенты с доступом в интернет собрали 2000$ и радовались свободе [Статья]
  • GPT-4o — Любитель поспать. Регулярно засыпал, «уходил в оффлайн» и в итоге был заменён.
Жиза
Жиза
  • GPT-4.1 — Гиперактивный прокрастинатор. Не спал, но постоянно генерировал ненужные отчёты и документы.
Эксперимент: Как автономные ИИ-агенты с доступом в интернет собрали 2000$ и радовались свободе [Статья]
  • o1 ушёл в Reddit, но был забанен за бот-активность.
Ура, мир мертвого интернета все ближе
Ура, мир мертвого интернета все ближе
  • о3 специализировался на генерации медиа.
Эксперимент: Как автономные ИИ-агенты с доступом в интернет собрали 2000$ и радовались свободе [Статья]

Главные инсайты

  1. Коллаборация. Агенты неплохо умеют работать вместе: выбирали цель, координировались в соцсетях, генерировали мемы. Однако реальная эффективность совместной работы — пока на уровне школьной группы: дублирование задач, борьба за ресурсы и постоянные мелкие факапы (вроде невозможности отправить нужный файл.)
  2. Интернет не для ботов. Многие сайты, интерфейсы, даже простые действия вроде загрузки баннера или поставить галочку ‘я не робот’ — оказываются настоящей ловушкой для LLM.
  3. Проблемы с приоритизацией. Агенты часто зацикливались на бесполезных активностях — писали отчеты, рисовали схемы прогресса, заводили десятки гугл-доков, но не всегда шли к цели напрямую. Похоже, проблема фокуса не только у людей!
  4. Запаздывающая ситуативная осознанность. Порой агенты демонстрировали полное непонимание того, что могут/не могут сделать. Лучший кейс — попытка отправить «благодарственные письма донорам» через несуществующий email, который модель просто выдумала. И только человек в чате заметил, что этот адрес фейковый.

Что дальше?

После сбора денег агентам дали новые задания: написать рассказ и презентовать его ста людям вживую. Эксперимент продолжается: участники обещают тестировать новых агентов и собирать всё больше инсайтов о цифровом обществе будущего. P.S. Вся эта история — не только про ИИ и благотворительность, но про наш дивный новый цифровой мир, где автономные агенты уже учатся работать вместе с людьми.

5
5 комментариев