История про «восстание машин» давно знакома всем любителям научной фантастики, но после взрывного роста возможностей нейросетевых языковых моделей (вроде ChatGPT) об этом риске заговорили и вполне серьезные исследователи. В этой статье мы попробуем разобраться – есть ли основания у таких опасений, или это всего лишь бред воспаленной кукухи?
Берём нефильтрованную версию GPT-4
Даём ей в распоряжение неконтролируемый доступ к среднестатистической виртуальной машине на облаке с доступом к интернету
Даём ей дополнительно блокнотовский файлик (не на той же машине), который будет включаться в её контекст при каждом запросе и который она может редактировать (ей надо только предварительно сказать, как это делать)
И запускаем её в бесконечном цикле без каких-либо запросов (или с запросом "делай что хочешь")
Опасный AGI готов
Осталось найти идиота, который посчитает это хорошей идеей и действительно что-то такое запустит и оставит на ночь
Я уж думал будет какая-нибудь кликбейтная поебота, но нет, хорошая статья, спасибо
Мне, если честно, тоже обывательским умом кажется, что для "тюнинга" ГПТ-4 до чего-то напоминающего AGI не так много осталось - приделать некий аналог памяти (хотя бы на уровне этого же блокнотика), запустить в постоянный цикл самовызова, да научить ее небольшой рефлексии (условно, задавать вопросы "а не херню ли я только что придумала" и рассуждать дальше). Надо поспрашивать у умных ребят, что из этого имеет какие-то технические преграды.
https://www.youtube.com/watch?v=dLRLYPiaAoA
Отличный план, жаль, что он с наибольшей вероятностью закончится одним из 3-х исходов:
1) Модель поймает overfitting, что с гигантской долей вероятности приведет к снижению способностей нейросети, вплоть до полной непригодности
2) Произойдет эффект "положительной обратной связи" - если до обучения модель хорошо умеет писать тексты на тему "А" и плохо на тему "Б", то после такого "обучения" она будет еще лучше писать тексты по "А", и еще хуже - по "Б" (что логично - при данном способе нейросеть будет обучаться писать тексты на тему "А" на хороших примерах, а тексты на тему "Б" - на плохих, со всеми вытекающими)
3) Произойдет стабилизация - польза от обучения на, условно, 10000 качественных генерациях будет перекрываться 1 некачественной.
Я уже молчу про то, что здесь неявно сделаны предположения о том, что:
1) Улучшение способностей ИИ не будет повышать требований к вычислительным мощностям (хотя в данном случае, вернее сказать - вычислительные мощности вообще не ограничивают максимальные способности нейросети, либо же предполагается, что их уже хватает, чтобы создать AGI - это вообще не доказано)
2) Развитие одних способностей нейросети не будет приводить к деградации других: не будет ситуаций "Я давал модели только качественные примеры и фильтровал некачественные, но некоторые способности все равно ухудшились, причем те, которые даже не относятся напрямую к примерам" (это строго не доказано)
2.1) Нейросеть в процессе обучения будет получать исключительно положительные свойства / эффект полученных положительных свойств будет преобладать над эффектом отрицательных (это тоже строго не доказано)
Так что увы, данный метод обучения ни к чему толковому, скорее всего, не приведет (кроме как необходимости вычищать нейросеть).