Последние пару лет развитие языковых нейросетей как будто бы шло по принципу «больше, длиннее, жирнее»: разработчики пытались раздуть свои модели на как можно большее число параметров и прогнать через них максимальный объем тренировочных данных. 12 сентября OpenAI выпустили новую LLM, которая добавляет в это уравнение еще одно измерение для прокачк…
В том же самом интервью уже другой исследователь говорит, что его удивила возможность получить качество выше при обучении на искуственно сгенерированных цепочках рассуждений
Насколько я помню, когда DeepMind обучали игре в го, то тоже использовали человеческие стратегии только в начале, а потом сетка сама с собой играла.
Да, в го, так и было, полностью убрали человека из цикла — даже первая большая фаза тренировки происходила без подсматривания в реальные партии.