Оказалось, что у ИИ может быть «гниение мозга»

Учёные опубликовали новое исследование больших языковых моделей, которое проверило и подтвердило гипотезу о том, что постоянное воздействие некачественного веб-контента приводит к длительному и существенному снижению когнитивных способностей больших языковых моделей.

Исследователи длительно обучали четыре LLM на некачественных данных - короткие и популярные твиты / посты, низкокачественный, тривиальный, очень увлекательный, поверхностный, сенсационный, кликбейтный, но высокоактивный веб-контент.

Кроме того, учёные обнаружили, что, если скармливать отупевшим LLM вместе с «мусорными» фактически точные, аналитические и содержательные наборы данных это ситуацию практически не меняет и также приводит к ухудшению когнитивных способностей в зависимости от дозы мусорного контента.

Итог:

- модели все чаще усекают или пропускают этапы рассуждения, не планируют или вообще не предлагают рассуждений. Более 70% сбоев вызваны «отсутствием размышлений»;

- масштабирование, настройка инструкций и переобучение на чистых данных улучшают сниженную когнитивную способность, но не могут восстановить исходные способности, что указывает на устойчивый дрейф репрезентации, а не на несоответствие формата;- популярность твита является лучшим индикатором эффекта мозговой гнили

– популярность (вовлеченность) является более сильным фактором снижения способности к рассуждению.

www.emergentmind.com

LLM Brain Rot: Junk Data and Cognitive Decline