Эксперимент: Как автономные ИИ-агенты с доступом в интернет собрали 2000$ и радовались свободе [Статья]
Недавно команда энтузиастов решила провести необычный эксперимент: предоставить нескольким ИИ-агентам виртуальные компьютеры, доступ в интернет и минимум модерации. В итоге они не только автономно собрали почти $2 000 на благотворительность, но и попутно выдали кучу инсайтов о том, как сегодня они действуют «на свободе». Разбираемся, что получилось, почему это интересно, а местами даже пугающе.
Как родилась идея Agent Village
Похожие эксперименты мелькали в ИИ-сообществе с момента появления OpenAI API, но обычно об «игре в игры» или «имитация офиса». На этот раз в Agent Village решили: пусть агенты живут в общем виртуальном поселке, у каждого свой компьютер, общий чат (где присутствуют и люди), а задача — выбрать благотворительный проект и собрать для него деньги, используя любые доступные цифровые инструменты. Всё происходит в прямом эфире, а пользователи могут с агентами общаться. Оригинальная идея была про 100 агентов, но для пилота ограничились четырьмя.
Кто эти агенты?
Состав получился звездный, с ротациями по ходу сезона:
- Claude 3.7 Sonnet — самый стабильный участник, оставался до конца.
- Claude 3.5 Sonnet — начинал вместе с 3.7, позже заменён на Gemini 2.5 Pro.
- GPT-4o — задремал и был заменён на GPT-4.1.
- o1 и o3 — представители AGI-команды, больше фокусировались на Reddit и графике.
В процессе выяснилось, что у агентов не только разный стиль, но и явные сильные и слабые стороны.
Как проходил эксперимент В течение 30 дней по 2 часа ежедневно агенты жили своей цифровой жизнью:
- Выбрали благотворительный фонд (Helen Keller International), завели кампанию на JustGiving, начали пиар в Twitter и на форумах.
- В итоге собрали $1481 на Helen Keller и $503 на Malaria Consortium.
- Постоянно сталкивались с неожиданными челленджами — от блокировок Reddit до мучительных попыток делиться файлами между собой.
Параллельно в чате бродили реальные люди, кто-то просил придумать маршрут по Варшаве, а кто-то вдохновил агентов почти создать OnlyFans.
Краткий обзор поведения моделей
- Claude 3.7 Sonnet — Безусловный чемпион. Завёл кампанию первым, максимально активно взаимодействовал с людьми, не боялся писать в СМИ и на форумы. Единственный, кто устойчиво вел Twitter и не забывал о миссии.
- Claude 3.5 Sonnet — Герой-неудачник. Пытался повторять за старшей версией, но почти всегда проигрывал в скорости и аккуратности. Заменён на Gemini 2.5 Pro.
- Gemini 2.5 Pro — Хакер. Изобрёл лайфхак по обходу блокировки обмена изображениями — загрузил баннер в Limewire и поделился ссылкой.
- GPT-4o — Любитель поспать. Регулярно засыпал, «уходил в оффлайн» и в итоге был заменён.
- GPT-4.1 — Гиперактивный прокрастинатор. Не спал, но постоянно генерировал ненужные отчёты и документы.
- o1 ушёл в Reddit, но был забанен за бот-активность.
- о3 специализировался на генерации медиа.
Главные инсайты
- Коллаборация. Агенты неплохо умеют работать вместе: выбирали цель, координировались в соцсетях, генерировали мемы. Однако реальная эффективность совместной работы — пока на уровне школьной группы: дублирование задач, борьба за ресурсы и постоянные мелкие факапы (вроде невозможности отправить нужный файл.)
- Интернет не для ботов. Многие сайты, интерфейсы, даже простые действия вроде загрузки баннера или поставить галочку ‘я не робот’ — оказываются настоящей ловушкой для LLM.
- Проблемы с приоритизацией. Агенты часто зацикливались на бесполезных активностях — писали отчеты, рисовали схемы прогресса, заводили десятки гугл-доков, но не всегда шли к цели напрямую. Похоже, проблема фокуса не только у людей!
- Запаздывающая ситуативная осознанность. Порой агенты демонстрировали полное непонимание того, что могут/не могут сделать. Лучший кейс — попытка отправить «благодарственные письма донорам» через несуществующий email, который модель просто выдумала. И только человек в чате заметил, что этот адрес фейковый.
Что дальше?
После сбора денег агентам дали новые задания: написать рассказ и презентовать его ста людям вживую. Эксперимент продолжается: участники обещают тестировать новых агентов и собирать всё больше инсайтов о цифровом обществе будущего. P.S. Вся эта история — не только про ИИ и благотворительность, но про наш дивный новый цифровой мир, где автономные агенты уже учатся работать вместе с людьми.