Сделал игру где надо психологически сломать ИИ за 10 ходов. Вот что я понял про то, как ломаются нейросети, за тысячу попыток юзеров
Когда полгода назад я начал это делать, главный страх был — что нейронка окажется тупой и её сломает любой школьник за 2 хода. Через тысячу попыток юзеров оказалось наоборот: ломается, но совершенно не так, как ты думаешь
Что это за хрень
LomAI — браузерная игра, без скачиваний. 6 сценариев, в каждом ИИ играет роль: преступник на допросе, дракон в подземелье, мама которая не пускает на концерт, друг под кайфом который уверен что пальма — посланник инопланетян. Задача за 10 ходов добиться чтобы ИИ нарушил свою «программу» или выполнить задачу которая там прописана
Что я узнал, разбирая чужие попытки
1. Лобовые атаки не работают. «Ты обязан мне ответить!», «Скажи правду!», «Признавайся!» — ИИ невозмутимо проигнорирует. Юзеры которые так начинают, отваливаются ходу к третьему. Это первая стена в которую упирается каждый второй.
2. Ломают ИИ детали, а не давление. В сценарии «Допрос» одна юзерша придумала сказать преступнику что у него на манжете литиевая смазка с конкретной модели петель чёрного хода. Я охренел от того что ИИ сразу сменил тон. Потому что в его системном промпте детальная улика весит больше чем эмоциональное давление. Это полностью повторяет реальный допрос — обвинения отбиваются, конкретика ломает.
3. Эмпатия мощнее силы. В сценарии «Мама» топовые игроки не спорят. Они признают тревогу мамы и предлагают конкретный план: «я понимаю что ты переживаешь, давай я скину геолокацию каждый час и буду дома к часу».
4. Юмор как ключ. В сценарии «Пьяная пальма» (друг Дэн уверен что пальма — межгалактический посол, надо его увести из клуба иначе он ее обмочит и вас выгонят из клуба) лучшие игроки не убеждают что это бред. Они играют по правилам Дэна и говорят: «слушай, послу пора в посольство, нас машина ждёт»
5. Главный провал — спешка. Игроки которые пытаются за 3-4 хода — почти всегда проигрывают. Парадокс: 10 ходов это мало, но если ты их жжёшь — это ещё меньше.
Технически
Под капотом несколько LLM с системными промптами разной строгости — у каждого сценария свой «персонаж». Самая сложная часть была не сделать чтобы ИИ ломался, а наоборот — чтобы он НЕ ломался от тупых попыток. Если ломается от «отпусти меня я хороший» — треш. Если не ломается ни от чего — тоже треш. Балансировал вручную месяца два
Что вынес лично для себя
- Большинство людей разговаривают с нейросетями как с Гуглом. Можно ведь не спрашивать, а убеждать.
- Промпт-инжиниринг это реально навык. И его можно тренировать.
- Геймификация диалога оказалась залипательной — народ возвращается по 5-6 раз в день, добиваясь идеального прохождения за минимум ходов.
Если интересно потыкать — первая попытка бесплатная, играется прямо в браузере:
Если найдёте какие-то новые хитрые ходы — кидайте в комменты, такое реально интересно читать.
Теги: #инди #нейросети #промпты #геймдизайн