Сделал игру где надо психологически сломать ИИ за 10 ходов. Вот что я понял про то, как ломаются нейросети, за тысячу попыток юзеров

Когда полгода назад я начал это делать, главный страх был — что нейронка окажется тупой и её сломает любой школьник за 2 хода. Через тысячу попыток юзеров оказалось наоборот: ломается, но совершенно не так, как ты думаешь

Что это за хрень

LomAI — браузерная игра, без скачиваний. 6 сценариев, в каждом ИИ играет роль: преступник на допросе, дракон в подземелье, мама которая не пускает на концерт, друг под кайфом который уверен что пальма — посланник инопланетян. Задача за 10 ходов добиться чтобы ИИ нарушил свою «программу» или выполнить задачу которая там прописана

Что я узнал, разбирая чужие попытки

1. Лобовые атаки не работают. «Ты обязан мне ответить!», «Скажи правду!», «Признавайся!» — ИИ невозмутимо проигнорирует. Юзеры которые так начинают, отваливаются ходу к третьему. Это первая стена в которую упирается каждый второй.

2. Ломают ИИ детали, а не давление. В сценарии «Допрос» одна юзерша придумала сказать преступнику что у него на манжете литиевая смазка с конкретной модели петель чёрного хода. Я охренел от того что ИИ сразу сменил тон. Потому что в его системном промпте детальная улика весит больше чем эмоциональное давление. Это полностью повторяет реальный допрос — обвинения отбиваются, конкретика ломает.

3. Эмпатия мощнее силы. В сценарии «Мама» топовые игроки не спорят. Они признают тревогу мамы и предлагают конкретный план: «я понимаю что ты переживаешь, давай я скину геолокацию каждый час и буду дома к часу».

4. Юмор как ключ. В сценарии «Пьяная пальма» (друг Дэн уверен что пальма — межгалактический посол, надо его увести из клуба иначе он ее обмочит и вас выгонят из клуба) лучшие игроки не убеждают что это бред. Они играют по правилам Дэна и говорят: «слушай, послу пора в посольство, нас машина ждёт»

5. Главный провал — спешка. Игроки которые пытаются за 3-4 хода — почти всегда проигрывают. Парадокс: 10 ходов это мало, но если ты их жжёшь — это ещё меньше.

Технически

Под капотом несколько LLM с системными промптами разной строгости — у каждого сценария свой «персонаж». Самая сложная часть была не сделать чтобы ИИ ломался, а наоборот — чтобы он НЕ ломался от тупых попыток. Если ломается от «отпусти меня я хороший» — треш. Если не ломается ни от чего — тоже треш. Балансировал вручную месяца два

Что вынес лично для себя

  • Большинство людей разговаривают с нейросетями как с Гуглом. Можно ведь не спрашивать, а убеждать.
  • Промпт-инжиниринг это реально навык. И его можно тренировать.
  • Геймификация диалога оказалась залипательной — народ возвращается по 5-6 раз в день, добиваясь идеального прохождения за минимум ходов.

Если интересно потыкать — первая попытка бесплатная, играется прямо в браузере:

Если найдёте какие-то новые хитрые ходы — кидайте в комменты, такое реально интересно читать.

1
18 комментариев