Как работают LLM (большие языковые модели типа GPT-4) простыми словами

Эта статья представляет собой краткое изложение часовой видеолекции Андрея Карпаты, выдающегося специалиста OpenAI, посвященной большим языковым моделям (LLM), таким как GPT-4.

Андрей Карпаты, один из ведущих экспертов в OpenAI, подробно рассказывает о функционировании LLM, их ограничениях и будущих возможностях.

Лекция настолько ясно и подробно объясняет принципы работы LLM, что даже сложные концепции становятся понятными.

Большие языковые модели, или LLM, состоят из двух основных компонентов:

Файл с миллиардами параметров
Небольшого файла с ≈500 строками кода для запуска модели

Сама LLM занимают сравнительно небольшой объем места и не требуют огромных вычислительных ресурсов.

Например, модель Llama-2-70b от Meta с 70 миллиардами параметров занимает всего 140 ГБ и может запускаться на обычном MacBook без доступа к интернету. Эта модель доступна для бесплатного скачивания на сайте Meta.

Однако для обучения модели требуются значительные вычислительные мощности.

Предварительное обучение (Pretraining)

Этот этап можно сравнить с сжатием Интернета в нейросеть, аналогично тому, как ZIP сжимает файлы. Процесс включает в себя:

Использование большого объема текста из Интернета (примерно 10 терабайт)
Использование кластера из примерно 6000 GPU (специальных графических процессоров, используемых для больших вычислений)
Сжатие текста в нейросеть (за примерно 12 дней и стоимостью около 2 миллионов долларов)
Получить базовую модель (тот самый файл с миллиардами параметров)

Основная задача базовой модели заключается в предсказании следующего слова в тексте. Когда пользователь вводит последовательность слов, модель анализирует их и на основе изученных в процессе обучения текстов выбирает наиболее вероятное следующее слово. Этот процесс основан на статистическом анализе использования слов в обучающем наборе данных.

Например, для слов "cat sat on a" LLM может предсказать слово “mat” с вероятностью 97%

<i>Картинка из презентации, примерно иллюстрирующая работу нейросети</i>

Этот метод позволяет моделям создавать тексты, которые выглядят естественными и связными, хотя на самом деле они генерируются путем последовательного предсказания каждого следующего слова.

<i>ChatGPT действительно отвечает "mat" и даже дает пояснен</i>

В отличие от архивации ZIP, которая осуществляется без потерь информации, процесс сжатия данных в больших языковых моделях (LLM) включает потерю некоторых данных. Это объясняет способность моделей к "галлюцинациям" - генерации информации, которая не существует на самом деле, но выглядит правдоподобно на основе обучающих данных. Таким образом, модели иногда могут производить неожиданные или несоответствующие ответы.

Например, ChatGPT может знать, кто мать Тома Круза (Mary Lee Pfeiffer), но не сможет определить, кто её сын, вопреки логическому предположению. Это подчеркивает, что LLM не являются традиционными базами данных, где информация хранится в структурированном формате. Они представляют собой более сложные системы, механизмы работы которых нам еще предстоит полностью понять. Мы видим лишь конечный результат, выдаваемый моделью, не всегда понимая логику его формирования.

Дообучение (Finetuning)

Стадия дообучения является ключевой для превращения базовой модели LLM в практически применимый инструмент. В отличие от базовой модели, которая просто продолжает последовательность слов, модель-ассистент, созданная на этапе дообучения, способна отвечать на вопросы и решать конкретные задачи.

Процесс дообучения схож с обучением базовой модели, но с одним важным отличием: данные для дообучения собираются и подготавливаются вручную. Компании привлекают специалистов для создания вопросов и ответов, которые будут использоваться в процессе обучения. Это обеспечивает высокое качество учебных данных.

В отличие от обучения базовой модели, требующего обработки огромных объемов текста, часто низкого качества, дообучение осуществляется на относительно небольших объемах данных (например, 100 000 документов), но каждый из них имеет высокое качество. Такой подход позволяет модели лучше понимать задачи, стоящие перед ней, и отвечать на вопросы в стиле полезного ассистента.

Основным преимуществом дообучения является его гибкость и эффективность: этот процесс может проводиться регулярно, даже еженедельно, поскольку он требует гораздо меньше ресурсов по сравнению с первоначальным обучением базовой модели. Это позволяет быстро адаптировать модель к изменяющимся требованиям и новым задачам.

Сравнения (Comparisons)
Важную роль играет метод, известный как RLHF (Reinforcement Learning from Human Feedback, или обучение с подкреплением на основе отзывов человека). Этот метод особенно полезен, когда задача состоит в улучшении качества и точности ответов модели.

Вместо того чтобы создавать ответы с нуля, в процессе RLHF люди сравнивают различные варианты ответов, предложенные моделью, и выбирают наилучший из них. Этот подход позволяет модели понять, какие ответы считаются более точными, релевантными или полезными.

<i>Источник: <a href="https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard" rel="nofollow noreferrer noopener" target="_blank">Chatbot leaderboards</a></i>

Существуют заметные различия между открытыми моделями, такими как Llama-2 от Meta, и закрытыми, проприетарными системами, такими как GPT-4 от OpenAI и Claude.

Проприетарные модели часто превосходят открытые по своим техническим характеристикам и эффективности. Однако, в отличие от открытых моделей, которые можно свободно загрузить и настроить под свои нужды, проприетарные системы доступны исключительно через веб-интерфейсы или API. Это означает, что пользователи проприетарных моделей не могут напрямую влиять на их обучение или адаптировать под конкретные задачи, хотя инициативы, такие как Custom GPTs от OpenAI, начинают открывать новые возможности для персонализации и настройки этих мощных инструментов.

Большие языковые модели вроде ChatGPT обладают широким спектром дополнительный инструментов, которые позволяющих решать разнообразные задачи.

Поиск в Интернете: ChatGPT может автоматически искать информацию в Интернете, используя поисковую систему Bing. Он получают и анализируют последние данные по запросу, интегрируя их в свой ответ.
Калькулятор: Сами по себе LLM очень плохи в математике, но ChatGPT с помощью языка программирования Python способен выполнять математические расчеты, функционируя как калькулятор для различных задач, от простых арифметических операций до более сложных вычислений.
Генерация изображений с DALL-E: ChatGPT может создавать визуальные изображения с помощью инструментов, таких как DALL-E, обеспечивая генерацию креативного контента.
Написание кода: ChatGPT эффективно генерируют код для программирования с помощью инструмента "Code Interpreter", предоставляя подсказки и решения для разработчиков.
Мультимодальность: ChatGPT может распознавать и обрабатывать не только текст, но и голос, изображения и видео, а также генерировать ответы в этих форматах.

Вопрос о том, могут ли большие языковые модели (LLM) принимать решения, сводится к пониманию их функционирования в контексте двух систем мышления, описанных Даниэлем Канеманом в его книге "Думай медленно… Решай быстро".

Система 1: Это быстрая, интуитивная система, работающая автоматически и без особого усилия. Примером её работы является мгновенный ответ на вопрос, например, 2+2.
Система 2: Эта система более медленная и логическая, она требует сознательного усилия и используется для решения более сложных задач, например, вычисления 17х24.

Современные LLM в основном функционируют аналогично Системе 1. Они могут быстро генерировать ответы, основываясь на вероятностных вычислениях и данных, на которых они были обучены, но это не сравнимо с глубоким, осмысленным анализом и решением сложных проблем, характерным для Системы 2.

В идеале, нам хотелось бы, чтобы LLM могли имитировать работу Системы 2, т.е. проводить длительный аналитический процесс, учитывая различные факторы и варианты, перед тем как предложить окончательное решение. Это подразумевало бы способность модели к глубокому размышлению и анализу, аналогично человеческому мышлению.

На текущий момент нет LLM, которые могли бы полностью воспроизводить сложные когнитивные процессы Системы 2. Однако развитие в этой области продолжается, и будущие модели могут приблизиться к такому уровню сложности в обработке и анализе информации.

Вопрос о самообучении больших языковых моделей (LLM) интересен, особенно если сравнивать с примером AlphaGo (программа для игры в Go), который прошёл два этапа обучения: сначала на данных, созданных людьми, а затем через процесс самообучения. Однако для LLM ситуация иная:

Текущее состояние LLM: На данный момент LLM обучаются исключительно на данных, сгенерированных людьми. Это связано с тем, что в отличие от игры в Go, где цель и критерии успеха ясны (выигрыш в игре), в языковых моделях такие критерии не столь очевидны. Оценка качества генерируемого текста зависит от множества факторов и часто субъективна.
Сложность самообучения LLM: В случае языковых моделей, определение "правильности" ответа или текста намного сложнее, чем в игре с чёткими правилами и исходом. Самообучение в таком контексте требует разработки сложных механизмов для оценки и коррекции сгенерированного контента.

Вполне возможно, что в будущем LLM смогут самообучаться в определённых областях, где можно будет ясно определить критерии успеха. Такие модели могут:

Обладать обширными знаниями по всем предметам.
Интегрироваться с Интернетом для получения актуальной информации.
Использовать и управлять различными программными инструментами.
Генерировать и распознавать изображения, видео и музыку.
Применять продвинутые формы мышления для длительных аналитических процессов.
Самообучаться в специализированных областях.
Быть настраиваемыми для конкретных задач и сценариев использования.
Взаимодействовать и сотрудничать с другими LLM.

Таким образом, будущее LLM обещает значительные прорывы в области искусственного интеллекта, расширяя границы того, как мы можем использовать эти технологии.

Если вам понравилась эта статья и вы хотите узнавать последние новости и интересные факты о прогрессе в области искусственного интеллекта, подписывайтесь на наш телеграм-канал "Робот сочинит симфонию?".

Наш полностью бесплатный ChatGPT тг-бот с распознанием голосовых сообщений: @dumebot