chatGPT отупел...или нет?
В общем, несколько дней, как то тут то там мелькает новость о том как отупел chatGPT, а точнее модель на базе которой он работает, при этом не просто новость, а исследование учёных из какого то там вуза которые провели замеры. И если не вдаваться в детали, то все выглядит так (по крайней мере по их словам). Но нашелся человек, который полез перепроверять и обнаружился интересный факт. Итак.
Как проводились сравнения
Мартовской версии (или майской, не суть) версии chatGPT скармливали алгоритмические задачи и отправляли решение на leetcode (собственно сайт для программистов с задачками, часто перед собесами там люди гоняют задачи что бы вспомнить забытое) и записывали количество принятых и не принятых решений. Но скармливали задачу не чату а через API. Соответственно получая ответ в сыром виде, обрабатывая его что бы оставался только код и код отправлялся на leetcode.
С нынешней версией проделали тоже самое и результаты сравнили по количеству принятых leetcode'ом решений. Но исследователи допустили ошибку, они упустили из виду что в нынешней версии ответ получаемый от chatGPT в виде кода оборачивается в markdown разметку "```Python тут идёт код```" и именно эта разметка и послужила причиной ошибок. Я не обращал внимание как выглядела эта разметка раньше, но очевидно что иначе.
Проще говоря процедура обработки ответа от модели и послужила причиной появления столь сенсационных новостей.
UPDATE START
Небольшое дополнение, на скриншоте ниже можно увидеть что после того как обнаруживший это человек форкнул репозиторий с задачами и поправил ошибку и сделал замеры без ошибки то выяснилось что chatGPT не отупел, а наоборот стаал чутак умнее (что впрочем не сильно заметно, т.к. разница минимальная и можно списать на погрешность.
UPDATE END
Как то так. Скриншот и ссылки прилагаю:
p.s. Сам пользуюсь на ежедневной основе для написания и редактирования кода и отупения не заметил от слова совсем.
p.p.s Вангую появление крикунов "вы все врете, она отупела, я сам лично видел" но подобные утверждения принимаются к рассмотрению только с пруфами сравнений.