Топ-5 ИИ-ботов для описания картинки: проверяем нейросети «на прочность»
Нейросети берут на себя всё больше рутинных задач, освобождая нам время для творчества. В частности, с помощью сервисов на базе искусственного интеллекта можно генерировать описания иллюстраций. Причем модели ИИ уже справляются не только с распознаванием котиков — некоторые боты даже «умеют» анализировать сложные графики.
Проверим, насколько ожидания совпадают с реальностью. Сначала сделаем с помощью ИИ описание картинки, на которой изображен вечно молодой Эминем. А потом покажем нейросетям скриншот задачи с диаграммами и попросим ее решить.
Чтобы сделать подборку из пяти лучших моделей ИИ, которые делают описание по картинке, мне пришлось протестировать около пятидесяти нейросетей — в браузере и Telegram. О том, какие зашкварные результаты выдавали некоторые сервисы, наспех «состряпанные» энтузиастами, я расскажу в конце статьи.
1. MazAi
Начну с бота, который мне понравился больше остальных. Эта модель ИИ по описанию и созданию картинок условно бесплатная — приветственных и бонусных токенов хватает на два запроса в день.
На мой взгляд, MazAi идеально подойдет для людей с нарушением зрения — он отлично распознает даже мелкие детали изображения и быстро генерирует текст, который можно озвучить с помощью десктопных читалок.
Я загрузила фото Эминема, и нейросеть отлично справилась с описанием его внешности, выражения лица, одежды, аксессуаров и фона. А еще искусственный интеллект разглядел на иллюстрации микрофон. Никаких плохо обоснованных «догадок», которыми грешили другие сервисы (читайте дальше и поймете, что я имею в виду).
Для второго испытания я выбрала несложную задачу из сборника психометрических тестов. Нейросеть представила информацию в упорядоченном виде — с маркированным и нумерованными списками. Как видите, ошибок в описании нет.
Соискателям на решение подобных задач обычно дают не больше одной минуты. Бот выдал правильный ответ за 5 секунд — к лишним символам не придираюсь.
Плюсы:
➕ интерфейс на русском языке;
➕ можно сразу писать запрос в чат — сервис сам определит, какая нейросеть справится с поставленной задачей;
➕ не нужно подписываться на телеграм-каналы разработчика, предоставлять доступ к номеру телефона и решать капчи;
➕ пользователю сразу начисляется 10 000 приветственных токенов;
➕ есть ежедневный бонус — когда на балансе меньше 500 токенов, на следующий день дают еще 1000;
➕ можно заработать 5000 токенов за каждого приглашенного друга (+10% от суммы его покупок в токенах);
➕ есть подробная инструкция.
Минусы:
➖ за массовую обработку фотографий придется платить.
2. Image Describer
Следующая модель ИИ делает описание картинок бесплатно. Но при этом каждое сообщение сопровождается спонсорской рекламой или записью о том, что ее не будет. При попытке изменить язык интерфейса нейросеть советует следующее: «Обычно такая настройка есть в меню». Но не в этом телеграм-канале 🤷🏻♀ Так что я попросила рассказать, что изображено на иллюстрации и сразу отправить ответ по-русски.
Эта модель искусственного интеллекта решила блеснуть аналитическими способностями. Раз изображен микрофон, значит, Эминем решил высказаться на каком-то мероприятии. Еще бы чуть-чуть, и по форме кулон будет напоминать символ мира. Так и хочется сказать: «Занимайся своим делом, Капитан Очевидность» 😁
С расшифровкой диаграмм ИИ справился — но ответ в виде сплошного текста читать неудобно…
Решение мне понравилось. И ответ такой же, как у MazAi:
Плюсы:
➕ полностью бесплатно;
➕ адекватные ответы.
Минусы:
➖ часто возникает очередь запросов от других пользователей;
➖ интерфейс на английском языке;
➖ ответ в виде сплошного текста неудобно читать;
➖ много рекламы;
➖ в описании изображения много лишней информации.
3. Vision Bot
На третьем месте — модель ИИ для описания картинки по фото Vision Bot. Единственная нейросеть, которая признала в «мужчине со светлыми волосами» Эминема. Правда, фотография никак не связана с альбомами рэпера, и певцу здесь явно не 30 лет. И, конечно, никакой он не пресс-секретарь 🤦🏼♂
Сервис больше подойдет SEO-специалистам — как известно, alt-теги в описании изображений на веб-страницах улучшают поисковую видимость сайта.
А с описанием задачи — беда. Нейросеть ограничилась перечислением всех надписей на иллюстрации. Не думаю, что имеет смысл просить ИИ выбрать правильный ответ.
Плюсы:
➕ полностью бесплатно;
➕ интерфейс на русском языке;
➕ узнает медийных личностей.
Минусы:
➖ ограничивается перечислением записей на фото;
➖ мало вариантов использования;
➖ делает много ошибок.
4. Go GPT
Качественный сервис на базе ИИ для описания картинок онлайн (в браузере) и через телеграм-бота. Единственный минус — чтобы загрузить иллюстрацию для обработки, придется сразу оплачивать тариф — от 299 до 2990 ₽.
Браузерная версия по внешнему виду напоминает диалог с Chat GPT на сайте Open AI:
В Telegram бот тоже демонстрирует высокую точность ответов — он решает задачи, анализирует содержимое иллюстраций и «понимает» шутки. Но дорогостоящие токены тают на глазах 😢
Плюсы:
➕ выдает точные ответы;
➕ интерфейс на русском языке;
➕ решает задачи;
➕ «понимает» юмор.
Минусы:
➖ чтобы активировать бесплатный аккаунт, нужно подписаться на телеграм-канал;
➖ чтобы работать с изображениями, придется пополнить баланс.
5. Hugging Face
И последний онлайн-сервис с ИИ для бесплатного описания картинок — Hugging Face. Это сайт, на котором собрано несколько сотен нейросетей под разные задачи, но нас сегодня интересует распознавание изображений. Поэтому загружаем фото Эминема:
Результат: «Мужчина в черной куртке и шапке говорит в микрофон». Приличное описание, которым могут воспользоваться SEO-оптимизаторы, — не более того.
Загрузим скриншот задачи:
Здесь совсем мимо: «Панель панели, которая иллюстрирует процент, обозначающий пользовательский опыт».
Плюсы:
➕ полностью бесплатно;
➕ выдает краткое описание иллюстрации, которое подойдет для SEO-оптимизации.
Минусы:
➖ только браузерная версия;
➖ не читает диаграммы и графики.
Это жесть
А теперь о том, с чем мне пришлось столкнуться, чтобы составить этот рейтинг. Одни сервисы назойливо просили подписаться на десятки каналов за один раз и даже создать папку на боковой панели! А еще решить капчу и отправить номер телефона 🤦🏻♀ Что самое смешное — после всех «прыжков с переворотом» бот проигнорировал картинку.
Были такие нейросети, которые увидели в Эминеме «молодую женщину с длинными светлыми волосами в розовом платье и белом пиджаке, которая стоит напротив длинной кирпичной стены»:
Но не будем судить нейросети строго. Во-первых, модель искусственного интеллекта не так просто разработать. Например, чтобы она распознала собаку по фотографии, нужно сначала «объяснить» на сотнях иллюстраций, чем пес отличается от кошки и чайника. Во-вторых, бот должен обработать тысячи запросов, прежде чем перестанет допускать «глупые» ошибки. Кстати, мы с вами тоже сегодня занимались обучением ИИ 🙌🏻
Обычно одну развлекуху постят. А тут 1й и 4й боты - то что надо 👍 И если на скрины диаграмм посмотреть, можно увидеть водяной знак TestOnJob, а мне как раз предстоит такое онлайн-тестирование 🙄 Лучи добра тебе, автор!
Спасибо. Да, я не смогла его убрать(
Здорово т.е. можно просто фоткать и получать быстрое решение задачек. Задали домашку ребенку, сфоткал-отправил в ИИ, получил ответ. Только переписывай) Прогресс))
Это точно) Кто бы мне сказал в детстве, что такое будет, не поверила бы.
Только вчера был запрос на такую подборку и сегодня нашла здесь! Благодарю!!!
Здорово, что оказалось полезно😊
Подозрительный пост