chatGPT отупел...или нет?

В общем, несколько дней, как то тут то там мелькает новость о том как отупел chatGPT, а точнее модель на базе которой он работает, при этом не просто новость, а исследование учёных из какого то там вуза которые провели замеры. И если не вдаваться в детали, то все выглядит так (по крайней мере по их словам). Но нашелся человек, который полез перепроверять и обнаружился интересный факт. Итак.

Как проводились сравнения

Мартовской версии (или майской, не суть) версии chatGPT скармливали алгоритмические задачи и отправляли решение на leetcode (собственно сайт для программистов с задачками, часто перед собесами там люди гоняют задачи что бы вспомнить забытое) и записывали количество принятых и не принятых решений. Но скармливали задачу не чату а через API. Соответственно получая ответ в сыром виде, обрабатывая его что бы оставался только код и код отправлялся на leetcode.

С нынешней версией проделали тоже самое и результаты сравнили по количеству принятых leetcode'ом решений. Но исследователи допустили ошибку, они упустили из виду что в нынешней версии ответ получаемый от chatGPT в виде кода оборачивается в markdown разметку "```Python тут идёт код```" и именно эта разметка и послужила причиной ошибок. Я не обращал внимание как выглядела эта разметка раньше, но очевидно что иначе.

Проще говоря процедура обработки ответа от модели и послужила причиной появления столь сенсационных новостей.

UPDATE START

Небольшое дополнение, на скриншоте ниже можно увидеть что после того как обнаруживший это человек форкнул репозиторий с задачами и поправил ошибку и сделал замеры без ошибки то выяснилось что chatGPT не отупел, а наоборот стаал чутак умнее (что впрочем не сильно заметно, т.к. разница минимальная и можно списать на погрешность.

UPDATE END

Как то так. Скриншот и ссылки прилагаю:

p.s. Сам пользуюсь на ежедневной основе для написания и редактирования кода и отупения не заметил от слова совсем.

p.p.s Вангую появление крикунов "вы все врете, она отупела, я сам лично видел" но подобные утверждения принимаются к рассмотрению только с пруфами сравнений.

chatGPT отупел...или нет?
1313
32 комментария