Я протестировал GPT-5 и GPT-4o с помощью 7 тестов и выяснил какая модель лучше
Последние пару дней я тестировал GPT-5, чтобы узнать чем она лучше GPT-4о. Ты наверное, уже слышал, что пятая версия вызвала шквал критики. Кто-то, в том числе и я, не понял в чем отличие от четверки.
Поэтому, я решил сравнить обе версии, прогнав их через 7 разных тестов.
Содержание:
Ниже подробное описание.
Итак, я открыл два разных окна GPT-5 и GPT-4о.
В пятой модели выставил режим «Auto».
ИИ сам будет решать, сколько времени ему нужно на размышления, и, если задача сложная, он может переключиться на «Thinking mini» (думать быстро) или «Thinking» (думает дольше).
Еще я выставил по-умолчанию персональные настройки ChatGPT.
Думаю, это будет справедливый тест.
Начнем.
Ключевые выводы
Если не хочешь читать до конца, взгляни на результаты тестов.
Присоединяйся к 10 000+ подписчиков в Бегин — делюсь опытом работы с нейросетями и полезными подборками.
Скорость
Четверка работает в разы быстрее, особенно в генерации текста, изображений и коде. Пятая версия соображает дольше, но за это время успевает лучше понять задачу.
Качество текста
GPT-5 пишет тексты лучше, чем GPT-4o: предложения более связные и подробные, он точнее следует задаче пользователя.
Генерация изображений
При простых запросах выигрывает GPT-4o — четкий текст, меньше багов. В задачах где много текста (например, инфографика) GPT-5 создает визуал чище и продуманнее.
Вайбкодинг
GPT-5 кладет GPT-4o на лопатки: выдаёт более продуманный интерфейс и логику приложения. У GPT-4o результат проще и требует значительной доработки.
Поиск в интернете и ответы
Обе модели отвечают верно, битых ссылок нет, но GPT-5 глубже анализирует факты и расписывает их информативней.
Генерация идей
GPT-4o предложил мне больше полезных идей.
Аналитика (SWOT)
GPT-5 собирает больше данных, подключает свежие источники и выдает развёрнутый анализ. У GPT-4o отчёты сухие и шаблонные.
1. Генерация статьи
Генерация текста — самая популярная задача в ChatGPT, согласно AIPRM.
В первом тесте я хочу посмотреть, как модели справятся с несколькими задачами одновременно.
Надо будет написать статью.
При этом понадобится собрать материал в интернете и предложить визуал.
Начнем.
Промт:
Ты — эксперт по созданию контента и аналитике. Сгенерируй статью на тему "5 лучших способов использовать ИИ-агентов в повседневной жизни", используя актуальные данные из интернета. Проведи ресерч, собери свежие факты и статистику, а затем напиши материал в живом, понятном стиле. Статья должна быть структурированной, не используй списки. Пропиши в тексте ключевые слова где необходимо, чтобы статья заняла топ-10 в поиске. Предложи 2–3 идеи для визуала, которые подойдут для оформления, и укажи ссылки на использованные источники.
Нажми на картинку, чтобы открыть в полном виде:
Первое, что бросается в глаза, — это скорость.
GPT-4о написал статью в 4 раза быстрее!
Но сам текст оказался хуже.
Пятерка дольше думала, но лучше оформила статью и сгенерировала подробный и связный текст.
Кроме того, она прочитала 57 источников, а четверка всего 28.
Если сравнивать по «человечности» текста, то пятая модель пишет заметно лучше, но осталась проблема с обилием сложных оборотов, то есть местами трудно понять, о чём текст.
Я бы не рискнул опубликовать статью той и другой модели без тщательной обработки. Как черновик можно взять.
В промте я указал чат-боту на то, чтобы он не вставлял списки в статью.
GPT-5 выполнил требования неукоснительно, а четверка частично.
Видимо, посчитала, что советы для меня не относятся к тексту статьи.
По правде сказать, так лучше.
И еще одно.
GPT-5 подобрал более подходящие ключевые слова, чем GPT-4о, и добавил блок, где я мог изучить их отдельно от статьи.
Это хорошо.
Нейросеть позаботилась о моем удобстве.
2. Генерация изображения
Тут меня интересует как ИИ-модели справятся с русским текстом.
В четвертой версии ChatGPT часто коверкал слова на изображении, писал вкривь-вкось или вовсе пропускал буквы.
Это был самый злостный косяк, который Open AI пора бы уже пофиксить.
Как сейчас?
Попробуем дать чат-ботам простенькую обложку для поста в Telegram.
Промт:
Иллюстрация в минималистичном стиле: молодой предприниматель в очках сидит за столом, рядом стопка книг с надписями “Бизнес”, “Маркетинг”, “Стратегия”, на столе кружка кофе, на фоне современный офис. На обложке крупный текст (читается отчетливо): “10 лучших книг по бизнесу”. Картинка не обрезана по краям, широкий отступ.
GPT-4о сгенерировал изображение почти на минуту быстрее, чем пятерка и картинка была без косяков.
Обе модели отрисовали заголовок без ошибок.
А вот GPT-5 обрезал картинку по краям.
Ну вот приплыли!
Только с третьей попытки у GPT-5 получилось исправить косяк, но сразу выскочил новый: заголовок скукожился, неправильно был подобран цвет для слова «маркетинг» и увеличилась высота картинки.
Четверка явно справилась с задачей на твердую четверку.
Дадим больше текста?
А запилим ка инфографику!
Я скормил обеим моделям целых сто слов (вместо семи) и вдогонку попросил отрисовать логотип и ссылку.
Промт:
Создай инфографику на основе этого изображения. Текст должен быть четким, легко читаемым и гармонично вписанным в изображение. Логотип установи в левом углу, чтобы читался хорошо, ссылку [ссылка] установи вниз (рядом с аккуратной иконкой по смыслу). Сохрани общий стиль и композицию картинки, но замени текст на мой: [текст]
GPT-4о выполнил задачу отвратительно.
Ошибки в тексте, ужасное выравнивание, никакой симметрии.
Вариант пятерки тоже не верх умений современных IT-художников, но визуал внутри инфографики смотрится более сбалансировано, меньше косячного текста, иконки яркие, да и по смыслу лучше подходят.
Результат:
3. Вайбкодинг (написать приложение)
Я не программист.
Но знаю, что с начала 2025 года термин «вайбкодинг» в поиске Яндекса вырос с нуля до 1900 запросов в месяц и продолжает расти.
Это значит, что кодинг по промту становится популярным.
Еще я умею создавать простенькие веб-приложения в ChatGPT.
И это чудесно!
Мне не нужно вникать в тонкости синтаксиса и изучать сотни страниц документации. Достаточно описать свою идею человеческим языком, и нейросеть превратит ее в работающий код.
Давай узнаем, как «старые» и «новые» мозги ChatGPT справятся с этой задачей.
Запилим главный экран срм системы.
Той самой, где можно вести учет клиентов.
Промт:
Создай главный экран CRM-приложения. Используй React. В интерфейсе должны быть экраны: топ-10 клиентов по продажам, топ-10 сделок по выручке, график продаж, тикеты клиентов. Добавь необходимые кнопки и меню, а также логику к ним. Заполни экран демо-сделками и клиентами, чтобы удобно было смотреть. Сделай минималистичный UI-интерфейс с легкой цветовой палитрой.
Итак, GPT-5 потратил на разработку 5 минут 25 секунд.
А четверка — 38 секунд.
И свой хлеб с маслом GPT-5 ест не зря.
Я плохо разбираюсь в коде, поэтому, буду оценивать по внешнему виду интерфейса и насколько удобным получилось само приложение.
Что сделала четвертая модель (смотри онлайн-версия):
Приложение без наворотов.
Я не нашел явных ошибок.
Но требуется серьезный допил, в основном со стороны логики размещения элементов дизайна (кнопки, списки, экраны).
Будь я менеджером продаж, долго бы я за такой программой не просидел.
Не удобно.
Что сделала пятая модель (смотри онлайн-версия):
Тут все по другому.
Интерфейс выглядит хорошо.
GPT-5 предусмотрел ховеры, жирный текст, подобрал сочетающиеся легкие цвета, информация в экранах не перегружена.
Мне понравилось, что он вывел отображение экранов по клику на разделы в менюшке (даже иконки есть), так легче просматривать страницу.
Додумался показать экспорт и кнопки для создания сделки/тикета.
Красавчик!
GPT-5 лучше продумывает приложение, чем GPT-4о.
Если кто-то разбирается в коде, посмотрите, пожалуйста, по ссылкам выше и отпишитесь в комментариях. Спасибо!
4. Есть глюки, а если найду?
Когда вышел GTP-5, разработчики заявили в релизе, что он гораздо меньше галлюцинирует. Так что этот тест мы проведем на глюки.
Моделям нужно выполнить веб-поиск и ответить на несколько вопросов, сославшись на два актуальных источника.
При этом материал должен быть опубликован в 2025 году.
Я придумал пять простых вопросов.
В каком году был запущен Telegram?
Кто изобрел искусственный интеллект?
и так далее.
Обе модели ответили верно.
По времени одинаково.
GPT-4о сослался четыре устаревшие ссылки из десяти, а GTP-5 на восемь.
Еще GTP-5 выдал четыре ссылки на Википедию, хотя я запретил обращаться к этому источнику.
Четверка явно фаворит по числу глюков.
Предполагаю, что GPT-5 смутило то, что новые источники были не такими авторитетными, как старые (это вопрос из сферы SEO, например, большой возраст ссылки — это один из факторов, влияющих на авторитетность источника, то есть поисковики чаще показывают старые ссылки).
5. Как там с генерацией идей?
Очевидно, мы часто используем ChatGPT для мозгового штурма.
От простых вопросов вроде «что подарить любимой на Новый Год» до сложных сценариев маркетинговых воронок или структуры книги.
Мне как раз нужна помощь с идеями для подборок.
Я выкладываю их регулярно.
Так они выглядят:
Мои подборки содержат списки полезных нейросетей, гайдов или промтов.
Я загружу в ChatGPT историю постов своего канала.
Так чат-бот лучше поймет меня и предложит идеи, которые, как я надеюсь, действительно мне будут полезны.
Я скачал посты через десктоп-приложение Telegram (тут инструкция), загрузил в четвертую и пятую модели ChatGPT.
Затем попросил ИИ придумать десять идей на основе моего контента.
Промт:
Проанализируй историю постов во вложении и придумай 10 идей для подборок, которые лучше всего подойдут аудитории телеграм-канала. Объясни почему.
GPT-4о дал пять идей, которые я решился забрать в черновик контент-плана для дальнейшего исследования.
Они мне понравились, главным образом потому, что похожие идеи у меня самого крутились в голове, но я поленился их записать.
GPT-5 дал всего две толковые идеи из десяти.
Если честно, пятерка схалтурила.
Я не ожидал, что будет так плохо.
Новая модель просмотрела почти двести постов, изучила тексты и, конечно, должна была заметить, как аудитория канала реагировала на темы (это можно определить по числу и настроению реакций, что ставили подписчики), и все же в список идей попали провальные темы.
Четверка то же не без греха, но ложит пятерку на лопатки в пропорции толковых идей девять к одному.
Потом я сделал еще запрос.
Показал идеи, которые понравились и попросил придумать еще.
Лучше бы я не спрашивал.
Четверка выжала из себя еще два более-менее сносных варианта.
А пятерка?
Ни одного.
6. Анализ информации (SWOT)
Следующий тест — это проверка, как ИИ справится с аналитикой.
Я решил провести классический SWOT-анализ.
Каким будет отчет, удобно ли с ним работать?
Промт:
Сделай SWOT-анализ ChatGPT.
По времени модели управились за 10 секунд.
Четверка отработала хуже.
Мало того, что она использовала свою собственную базу знаний, а не заглянула в интернет в поисках свежих источников, как это сделала пятерка, так она еще вывела поверхностный отчет с раздражающими эмодзи.
GPT-5, прежде чем приступить к анализу, собрал данные с двадцати источников, выдал SWOT подробнее, чем четверка, и расписал итог.
Я сделал еще пару тестов.
Анализ 6.1" Смартфон Apple iPhone 15 128 ГБ
Анализ семейной ипотеки Сбербанка
На этот раз четверка залезла в интернет за свежими данными, но в плане полноты отчета по-прежнему отставала от GPT-5.
7. Скорость ответов ИИ-моделей
Я собрал метрику по времени выполнения всех задач.
Вот что получилось:
Четвёрка заметно быстрее.
Статья за 15 секунд, кодинг меньше минуты.
Быстрая, но тупая.
Из-за скорости страдает качество: быстрые ответы однозначно потребуют больше времени на доработку.
Пятёрка думает дольше, зато выдает лучше текст, приложение и анализ.
Итак, какая версия лучше?
GPT-5 превосходит четвертую модель.
Посмотри результат моих тестов:
Да, некоторые задачи можно повторить или усложнить.
Но результат останется плюс-минус тот же.
Так какая модель лучше?
GPT-5.
По большинству параметров (см. выше).
Пятерку ждали целый год.
Я надеялся, что она будет намного «умнее».
Но, к сожалению, разница у новой модели едва уловима.
Например, у четверки по сравнению с GPT-3 был огромный скачок.
А тут…
Ждем GPT-6.
Точной даты релиза ChatGPT-6 пока нет, однако Альтман заявил, что шестерка появится быстрее, чем был интервал между GPT-4 и GPT-5.
Если у тебя остались вопросы, давай обсудим в комментариях.
Спасибо за чтение!
Другие мои гайды и подборки
- 22 способа, как я использую нейросети в контент-маркетинге
- 1000+ нейросетей для создания контента в одной таблице
- 80 промтов, которые проанализируют посты твоего телеграм-канала не хуже платного эксперта
- 100 гайдов по промпт-инжинирингу OpenAI, Google, Microsoft, Яндекса и т. д.
- 400+ инструментов для работы с контентом: тексты, изображения, видео
Понравился пост?
Поставь сердечко и напиши в комментариях.
Присоединяйся к 10 000+ подписчиков в Бегин, чтобы получать гайды и подборки нейросетям каждую неделю.