Для обучения по-настоящему успешных больших языковых моделей нужно много, очень много текста. Сейчас его берут из интернета, но количество человеческой писанины в вебе растёт несравненно медленнее, чем потребности ИИ.
Эту проблему хотят решать с помощью текстов, написанных другими нейросетями. Но будет ли это работать? В попытке ответить на этот вопрос, одна из групп провела эксперимент, который показал, что при обучении модели на тексте, написанном моделью, которая обучалась на тексте, написанном моделью [повторить N раз], на выходе получится полная ерунда. Особенность этой работы (я уже упоминал её недавно) в том, что она не ограничилась препринтом или публикацией в сборнике конференции, а добралась не много не мало до Nature — вообще говоря, редкость для ИИ, — затратив, однако, на это целый год.
Статья вышла в июле и наделала шуму в медиасфере. Шутка ли, выходит, что развитие LLM семимильными шагами несётся в тупик! Действительно, такой вывод кажется неизбежным, учитывая, что скоро количество текстов в интернете, написанных машинами, превысит человеческие.
Я решил разобраться, что к чему, и вооружился мнением экспертов по ИИ, которых в моём окружении сейчас достаточно. Итог увидел свет сегодня в виде материала на N + 1
бедные элэлэмки, учатся на курсовых моих однокурсников, и думают, что это лучше, чем нейронка
А это как с ИИ-ассистентами погромистов: чтоб ИИ писал хороший код, его нужно обучить на большом датасете хорошего кода, а хорошего кода нет.
Человечий код закончился ещё в прошлом году. Об этом пишу как раз
Так уже давно во многих моделях половина обучающего датасета это синтетика
всё так
Одно дело вращать фото собаки чтобы получить 100 вариантов, другое просить сеть сгенерить фото собаки с нуля