Раскрываем тайны капчи: Внутренний мир защиты от ботов

Зачем нужна капча? Как она обеспечивает безопасность и можно ли ее взломать с помощью ботов, наподобие gpt-4? В этой статье мы рассмотрим историю капчи, узнаем, как роботы сражаются с роботами, и разберем, как Google зарабатывает на нашей безопасности. Приготовьтесь к увлекательному погружению в мир этой уникальной технологии.

Как появилась капча?

Раскрываем тайны капчи: Внутренний мир защиты от ботов

В нулевых годах интернет активно развивался, и с ним появились первые спамеры, рассылающие электронные письма с мошенническими предложениями. Особенно запомнились рассылки от нигерийских принцев.

Одной из основных проблем было то, что почтовые сервисы не были защищены от таких атак. Боты создавали огромное количество спам-аккаунтов, что приводило к серьезным проблемам не только для пользователей, теряющих деньги, но и для всего интернета. Кроме того, такие рассылки создавали большую нагрузку на серверы. Аналогичная ситуация была с регистрацией спам-аккаунтов на форумах и других сайтах.

Было необходимо разработать защиту, которая усложнила бы автоматическую регистрацию подобных аккаунтов. Капча стала одним из таких решений.

Первые системы защиты от спамеров, или CAPTCHA, были разработаны в 2000 году. Инженеры университета Карнеги-Меллон во главе с Льюисом фон Ано создали эту технологию. Тогда же был зарегистрирован торговый знак "CAPTCHA", что расшифровывается как "полностью автоматический публичный тест Тьюринга для развлечения компьютеров и людей".

CAPTCHA представляет собой мини-тест, который пользователь должен пройти перед регистрацией на сайте. Этот тест должен быть достаточно легким для пользователя, но достаточно сложным, чтобы автоматические системы не смогли его пройти.

Инженеры пришли к выводу, что если пользователь способен включить компьютер и набрать что-то в браузере, то он умеет читать. Поэтому решение заключалось в использовании случайно сгенерированного текста, который был неподвластен ботам, но при этом достаточно читаем для человеческого мозга. Один из вариантов заключался в использовании известных слов, которые были так сильно искажены, что роботы не могли их распознать.

Важно отметить, что тогда уже существовала технология распознавания текста по картинке, но она работала только с непокороченными буквами. В случае CAPTCHA слова генерировались процедурно, создавая практически непреодолимые барьеры для ботов.

Гонка вооружений: Что такое рекапча?

И так, пошла капча. Вскоре они стали появляться повсюду, но светлое будущее так и не наступило. Со временем люди научились обходить капчи, использовались различные подходы: кто-то находил закономерности, кто-то ошибки в коде. Лучший способ обхода был придуман довольно просто: если бот не может преодолеть защиту от ботов, давайте посадим человека. Это был практически шах и мат для капчи, которая создавалась для защиты от роботов, но оказалась уязвимой перед людьми.

Постепенно такой подход начал набирать обороты. Злоумышленники использовали дешевую рабочую силу из азиатских стран: обход миллиона ребусов стоил всего лишь 1000 долларов. Ситуация была далеко от идеала, но войны ответили. В итоге справиться с таким обходом стало практически невозможно. Однако появление внутренних систем обнаружения спам-аккаунтов у сервисов стало некоторым решением проблемы.

Тем временем, Льюис фон придумал, как превратить недостаток капчи в ее преимущество. Идея была проста: самый ценный ресурс человека - это время. Обычно решение капчи занимает около 70 секунд. Представим, что в день капчу решает 100 тысяч человек. Если перевести это в часы, получится почти 28 часов. То есть вместо того, чтобы тратить силы на какую-то ерунду, эти 100 тысяч человек могли бы заниматься чем-то полезным на 28 часов. Именно с этой идеей Льюис фон понял, что нужно делать.

Так появилась рекапча - вторая версия технологии. Ее устройство было следующим: первое слово генерировалось случайным образом, а второе бралось из старой книги или архива газеты New York Times.

В те годы активно проводилась цифровизация старых активов, и литературу оцифровали с помощью компьютера. Однако алгоритмы не всегда справлялись, особенно если чернила стекали или подсыхали. В таких случаях на помощь приходила система: она заранее знала, что означает первое слово, а второе было неизвестно. Если пользователь правильно писал первое слово, автоматически предполагалось, что и второе слово тоже написано правильно.

Далее второй вариант предлагался несколько сотен раз разным пользователям, и ответы сопоставлялись. В результате слово отмечалось как решенное. Таким образом, цифровой архив получал исправленное слово. Забавный факт: каждые 4 дня решение капчи помогало оцифровать архив газет. Кто бы подумал, что такая простая технология имеет такую интересную историю. Но это только начало.

Какие еще бывают капчи?

Если компания не пользовалась решением от самого бренда Captcha, то придумывали свои. Например, подход Яндекса был схожим, только на кириллице. А вот соцсеть Цукерберга одно время использовала более хитрое решение. Смотрите, подход интересный: если вас считали роботом, то показывали фотографии пользователей из списка ваших друзей. Вам нужно было отметить правильное имя человека, и тогда вы проходили проверку.

По решению суда в России запрещена деятельность социальных сетей Facebook и Instagram (Meta купила ее в 2012 г.) по причине экстремизма и русофобии

Всемирно известная криптовалютная биржа Binance предлагает вам собирать простенький пазл с ползунком, где есть недостающий элемент. Есть совсем необычные решения, но они в основном от любителей и массово никогда не используются. Например, появилась капча, где нужно застрелить монстра из игры Doom. А есть просто прекрасная капча, где вам нужно приседать, чтобы пройти тест.

И всё же, сейчас самая распространённая капча - это та, где вам нужно нажимать "Я не робот". И как же мы в итоге докатились до такого? А причем тут Google? Технологию reCAPTCHA в 2009 году купает Google, и изначально замысел поисковика был не столько в защите, сколько в том, что у компании были сервисы Google Books и Google News. В обоих из них использовались сканы либо книг, либо старых статей. Обычный пользователь и не увидел бы разницы.

Но чуть позже компания решила, что будет круто, если пользователь будет помогать улучшать их сервисы бесплатно. Google Street View и Google Maps - принцип тот же. Тот текст, который не могли распознать соцсети, отправлялся на проверку кожаными мешками. Они справлялись прекрасно, и в основном это были номера домов. Так на свет появилась капча, которая показывала пользователям реальные фотографии города. Вообще, с точки зрения технологии, решение классное.

Такое решение от Google пользуется сотнями миллионов пользователей по всему миру и кучей компаний, например, Twitter и многие другие. Но помимо улучшения качества картинки, такая система ещё и обучала зарождающуюся нейросеть от Google. Как это устроено? Они изучали правильные ответы пользователей, и уже на этой базе тренировали собственные сети, которые распознавали изображения. По сути, накапливалась уникальная база для тренировки.

Но распознаванием текста занимался не только поисковик. Быстро стало понятно, что такой защиты тоже уже недостаточно, и нужен новый подход. Что же смогли придумать?

Кнопка "Я не робот" и нейросети

Давайте продолжим разговор о хорошо знакомой нам кнопке "Я не робот". Возможно, скоро появится ещё одна кнопка - "Я робот". Каким образом это устроено? Google задумался над этим вопросом и пришел к выводу, что лучшим способом выявить ботов будет не простое решение задач, а наблюдение за поведением пользователя.

Когда вы заходите на любой сайт, подключенный к reCAPTCHA, активируются нейросети, которые отслеживают ваше поведение: как вы двигаете мышью, какие действия совершаете. Быстро выявляются паттерны поведения обычного пользователя на веб-сайте. Затем вам предлагается отметить квадратик, чтобы подтвердить, что вы не робот. Если нейросети определяют, что вы ведете себя как человек, то вас пропускают дальше. Однако, если ваше поведение кажется подозрительным, активируется второй уровень проверки - звуковая. Вам предлагается отметить правильные квадратики, прослушав звуковые сигналы.

Интересно, что не обязательно отвечать на все вопросы правильно. Если вы случайно пропустите какой-то фрагмент, вас все равно могут принять за человека. Все дело в нейросетях. Они не интересуются тем, отметили ли вы все квадратики правильно. Важно, как вы ведете себя в целом. С точки зрения безопасности, неизвестно, насколько надежна эта защита. Google не утверждает, что это лучшая существующая защита.

Если погуглить способы обхода капчи, можно найти около 35 тысяч результатов, хотя, конечно, стоит отметить, что спам не рекомендуется и я не одобряю такое поведение. Однако, существуют услуги по обходу капчи, скрипты и даже люди, которые готовы выполнить задачу.

Тем не менее, более серьезные подходы к этому вопросу можно найти в документе, опубликованном Black Head, объединением программистов и кибербезопасников. Они проводят конференции, тренировки и тесты, в том числе и с reCAPTCHA. По их результатам, с использованием различных алгоритмов и нейросетей удалось успешно обойти капчу в 28-45% случаев.

Кроме того, в этом году появился новый способ прохождения капчи с помощью чат-бота GPT. Пользователь попросил нейросеть решить капчу, и хотя она не способна взаимодействовать с изображениями или выполнять действия, такие как клики мышкой, она может подсказать, где находится правильное изображение.

Таким образом, существует предположение о том, что мы входим в новую эру спама и мошенничества. С одной стороны, решение капчи будет гораздо проще, а с другой стороны, генерация текстов также станет значительно проще благодаря чат-ботам.

Поэтому мы, вероятно, стоим на пороге совершенно новой эры, и ее последствия могут быть интересными. Спасибо, что дочитали до конца. Надеюсь, вам было интересно, как и мне. Если вам интересны тема нейросетей и IT, подписывайтесь на мой телеграм канал