Российские разработчики объявили о старте FractalGPT – аналога ChatGPT и GPT-4 от OpenAi

FractalGPT - проект самообучающегося ИИ на базе больших языковых моделей(LLM) и логического вывода (reasoning). FractalGPT задумывается нами как первый настоящий прототип AGI (Сильного ИИ).

Мы опубликовали анонс о FractalGPT в ИИ сообществах 20го февраля, а вчера, 14го марта вышел GPT-4. Сегодня мы для всех, публично объявляем о старте проекта FractalGPT.

1. Создать ИИ модель лучше, чем ChatGPT. FractalGPT сможет кардинально лучше решать задачи математики, физики, понимания логики суждений и будет делать это надежнее, с прогнозируемой точностью.

2. А для ИИ сообщества создать открытую и прозрачную экосистему скиллов и ИИ моделей для настоящего дисрапшена в применении и внедрении ИИ решений для бизнеса и государства.

Вот краткий перечень принципов и компонентов, на которых FractalGPT будет построен:

1. Целеполагание (строит модель целей свою и собеседника)
2. Умение логически “мыслить”
3. Мотивация (имеет внутреннюю потребность к саморазвитию)
4. Планирование своего поведения
5. Умение выражать и испытывать эмоции
(список не полный, некоторые принципы не раскрываем)

В составе небольшой команды ML разработчиков мы уже собрали микро-MVP. Разработана принципиальная архитектура системы, построена модель функционирования. Составлен план разработки.

FractalGPT это достаточно большой проект распределенного искусственного интеллекта, в нем мы предполагаем наличие множества модулей. На модуле логического вывода можно остановиться подробнее, именно этот модуль позволяет более обосновано принимать решения, с прогнозируемой достоверностью, в отличии от больших языковых моделей. Примером некорректной генерации языковой моделью, может служить что Bing при общении с пользователем угрожает и хамит ему. (https://vc.ru/s/sokr/612368-microsoft-urezal-funkcii-novogo-bing-on-lgal-sledil-za-sotrudnikami-i-ugrozhal-ubiystvom)

Модуль Когнитрон Кибертроныч Ai - это модуль логического вывода, он представляет собой экосистему создания, обучения и хостинга языковых моделей и самообучающихся моделей(скиллов) со способностями логического вывода (logic inference, reasoning) для сборки конечных ИИ продуктов на базе нейро-символьного подхода, в том числе мультимодальных.

ChatGPT (https://openai.com/blog/chatgpt/) порвал рынок и стал самым быстрорастущим приложением в истории, набрав 100 млн активных ежемесячных пользователей всего за 2 месяца, став самым быстрорастущим приложением в истории (https://rb.ru/news/chatgpt-record-users/ ). Однако даже огромная трансформенная модель на базе InstructGPT, обученная с помощью подхода RLHF по прежнему страдает от фундаментальной, неустранимой проблемы неконтролируемой бредогенерации: она придумывает и искажает факты, даты, события, обманывает при ответах, приукрашивает(bias, https://en.wikipedia.org/wiki/Algorithmic_bias ).

Особенно ярко проблема контроля генерации трансформеров видна при решении символьных задач в математике, физике, биологии и других точных науках, поиске фактов, ответах на вопросы - и поэтому в этих отраслях использовать даже большие языковые модели(LLM) опасно. Даже те кейсы, в которых ChatGPT показывает себя хорошо, такие как генерация сниппетов кода и исправление ошибок по описанию - все равно не расширяются на структурное написание нового кода, собственно потому, что архитектура GPT принципиально не подходит для решения такого рода задач.

Мы предлагаем принципиально новый подход и архитектуру к обучению гибридных нейросимвольных трансформерных моделей, способных инкорпорировать знания в виде графов знаний, а также обновлять их в процессе не только обучения на данных, но и в процессе взаимодействия с другими моделями, которые в данном контексте выполняют роль подключаемых модулей (скиллов). Такие модели станут способными к моделированию рассуждений, так, как об этом мечтали еще 30 лет назад - описано в книге Поспелов Д. А. П 62 Моделирование рассуждений. Опыт анализа мыслительных актов.— М.: Радио и связь, 1989.—184 с.: . Аналогичные идеи построения семантического дерева предложения, а затем анализа силлогизмов, предикатов и пр. рассматриваются и в книге Е. В. Золотов, И. П. Кузнецов. Расширяющиеся системы активного диалога. 1982 г..

Фрагмент попыток анализа логики высказываний из книги Поспелова.

Когда я читал эти книги, мне было искренне жаль их авторов - ведь идеи они высказывали совершенно правильные. На тот момент создавать системы, которые могли бы рассуждать, строить цепочки фактов и событий, делать выводы (reasoning), обладать логикой - было невозможно из-за фундаментальных проблем: отсутствия языковых моделей которые могли бы адекватно выполнять трансляцию данных между нейросетевым и символьным слоем. Требовалось написать тысячи и даже сотни тысяч правил, чтобы победить неоднозначность языка и обеспечить надежность и проверяемость выводов модели, а это было невозможно.

В предлагаемом нами решении проблема поиска, конструирования фактов, событий, рассуждений решается с помощью синергии в применении 3х подходов к обучению моделей использовать внешние базы знаний, обновлять веса модели и видоизменять граф логического вывода и постоянно обучаться учиться лучше (learn-to-learn):
1. Toolformer + MRKL - подход, позволяющий модели обучаться правильно использовать запросы во внешние базы знаний (API calls), в том числе запросы в другие ранее обученные модели и таким образом строить логические цепочки, аналогичные chain-of-thought (https://ai.googleblog.com/2022/05/language-models-perform-reasoning-via.html) но более длинные, сложные, с ветвлениями, циклами, логикой предикатов и квантификаторов, оперирующие неполными и неточными данными(аналогично NARS https://www.applied-nars.com/ ). Подход показал свою полезность в задачах вызова нужных данных при поиске, подсчетах, анализе дат, вопросно-ответной системе в статьях: Toolformer: Language Models Can Teach Themselves to Use Tools (https://arxiv.org/abs/2302.04761 ) и MRKL Systems A modular, neuro-symbolic architecture that combines large language models, external knowledge sources and discrete reasoning (https://arxiv.org/pdf/2205.00445.pdf )

Демонстрация использования предсказаний тулов

2. reStructured Pre-training (https://arxiv.org/pdf/2206.11147.pdf ) - подход, при котором трансформер учится не на self-supervised датасете, а на более структурированном. Подход показал свою эффективность: модель трансформера GPT3, обученная с помощью датасетов с дополнительными данными (NER, факты, заголовки, суммаризация и т.п.) превзошла оригинальную GPT3 при этом имея в 16 раз меньше параметров.

3. Reinforcement learning from human feedback (RLHF) - подход, позволивший добиться генерализации промтов (prompt - "затравка") и описанный в оригинальной статье от OpenAi и их блоге: (https://openai.com/blog/chatgpt/ ), Aligning Language Models to Follow Instructions (https://arxiv.org/abs/2203.02155 ). Именно использование дополнительной политики модели (Proximal Policy Optimization) дало возможность пользователям по сути "обучать" модель без фактического файн-тюнинга, то есть понимать огромный спектр задач просто по описанию естественным языком, даже тех, на которые модель не учили.

Предлагается для обучения моделей применять новый гибридный подход RLHF-MRKL-RST c обновлением весов Toolformer.

Принципиальная новизна проекта в применяемом подходе к пред. обучению гибридных моделей: используя RLHF можно обучать модель понимать новые задачи практически неограниченной вложенной сложности благодаря моделям, способным добывать новые знания с помощью Toolformer + MRKL, инкорпорировать их в языковые модели, а затем переобучаться снова с помощью RST (reStructured Pre-training). Разрабатываемый в настоящее время проект Интерпретируемого ИИ с библиотекой ExplainitAll позволит обеспечить внедрение метрик надежности работы моделей в реальное применение.

Модели и экосистема будет полезна бизнесу и госструктурам из любой сферы и позволит уменьшить затраты на составление наборов данных и внедрении ИИ.Конкуренты: OpenAi ChatGPT (и GPT-4), Anthropic Ai(Claude) (https://scale.com/blog/chatgpt-vs-claude ), HuggingFace, Google Bard. Рыночная оценка самого простого - HuggingFace - $2 млрд. долл.( https://techcrunch.com/2022/05/09/hugging-face-reaches-2-billion-valuation-to-build-the-github-of-machine-learning )

Российские разработчики объявили о старте FractalGPT – аналога ChatGPT и GPT-4 от OpenAi

На платформе FractalGPT можно будет разработать, запустить и использовать нейросетевые модели и навыки для задач:

1. Системы синтеза новых идей из научных статей
2. Рассуждающие системы: намного более надежные чем текущие LLM с chain-of-thoughts
3. Системы конструирования описаний задач для решения прикладных задач (например: прочитай статьи про устойчивость зданий и создай проект небоскреба высотой Х для местности А с почвами С, опиши риски и ограничения К)
4. Вопросно-ответные системы для бизнеса в реальном времени обновляющие информацию
5. Системы автоматического доказательства теорем или проверки непротиворечивости доказательств.
6. Системы поиска недостоверной в новостных публикациях
7. Системы контролируемого диалога
8. Образовательные системы с контролем траектории обучения на базе мировых трендов
9. Системы описания умных городов на базе научных исследований, с поиском и объяснением узких мест в планировании инженерных коммуникаций и генерацией верифицируемых, надежных сценариев исправления ошибок и построения сценариев оптимизации застройки. По сути, языковые модели смогут генерировать новое знание проверяемым способом из множества документов и статей, регламентов, на вход принимая лишь структурное описание проблемы, ограничения.
10. Сервисы автоматизации судебной системы, юриспруденции и пр.

- Что уже сделано? Проект на стадии идеи или уже есть код?
- Идея уже проработана, создан небольшой прототип, proof-of-concept, он работает и это очень зажигает.
- Когда что-то покажете?
- Мы думаем, что потребуется от 4-7 мес. до момента, когда FractalGPT можно будет сравнить с ChatGPT и победить его в этом сравнении по качеству, спектру решаемых задач и стоимости внедрения(inference). Мы будем публиковать демо и новости о ходе разработки в Телеграм чате https://t.me/fractal_gpt

Демо в виде кейсов того, как работает система ожидается через неделю.Чуть позже будут уже демо, в которых можно будет задавать свои вводные.

Мы будем выпускать демо концептуально разных уровней:
1. сначала некий пруф-оф-концепт того, что фактологию вообще можно решить более эффективно, чем обучая LLM
2. затем пруф-оф-концепт того, что наше решение скейлится на множество доменов
3. затем пруф-оф-концепт того, что когда оно скейлится, не происходит падения качества - то есть, что существует некий закон скейлинга и это важно для коммерческой применимости, что-то вроде способности к генерализации, и так далее.

- Где узнать больше информации?- Заходите в наш Телеграм чат: https://t.me/fractal_gpt

Понимаш Захар

Руководитель проекта "FractalGPT".

Специалист в области машинного обучения и глубоких нейронных сетей. Разработчик собственного ИИ фреймворка AIFramework, а также системы логического вывода с мотивацией. Один из разработчиков: первого в РФ ИИ психолога Сабина и библиотеки для интерпретации генеративных нейросетей Transformer.

Носко Виктор

Продвижение и развитие проекта "FractalGPT".

Генеральный директор, ООО "Аватар Машина". Специалист в области генеративных нейросетей трансформер, интерпретируемого ИИ. Визионер открытого и этичного ИИ. Докладчик конференций по искусственному интеллекту: Conversations.ai, OpenTalks.ai, AGIconf, DataStart, AiMen. Активный участник сообщества AGIRussia. Один из разработчиков: первого в РФ ИИ психолога Сабина, библиотеки для интерпретации генеративных нейросетей transformer.
#gpt4 #chatgpt #fractalgpt #openai #gpt3 #ai

147 комментариев

KindlyWolf

17.03.2023

Чтоб обучить гпт 4.0 опенаи потребовался кластер из 10 тысяч гпу. У яндекса самый крупный кластер это 1.6 тысяч. У теслы примерно такого же масштаба, и они заявляли что у них 6ой крупнейший в мире. В россии просто нет таких кластеров. Опенаи его сделали после того как в них влили 10 лярдов баксов. Это задача уровня великих строек коммунизма. Не вчитывался в статью, но звучит как развод каких-то лохов на даллары. Видимо очередной попил. Удачи в пилении.

Ответить

Виктор Носко

Автор

Я дал лайк вашему комментарию, тк он первый технический и по существу.
Хотя так и хочется влепить мем "не читал, но осуждаю".
Теперь по фактам: мы отлично знаем, что на обучение GPT-like моделей потрачено только на GPU более 10млн долларов, из открытых источников. Та же ситуация с Meta, Nvidia.
Сбер тоже много тратит, мы партнеры SberCloud.
НО: на текущем этапе в плане нет обучения своих больших LLM, нам достаточно тех, что уже обучены - многие из них есть в опенс-сорс, например GPT-JT, LLama утекла, BLOOM и другие. Му уже проверили и точно выяснили, что для МВП их достаточно. Поэтому мы как Ньютон - этот проект возможен только потому, что "мы стоим на плечах гигантов".
Вывод: нам не нужны миллионы долларов на GPU, по крайней мере пока.
Я еще проиллюстрирую свой тезис цитатой из статьи OpenAi про обучение InstructGPT:

Labelers significantly prefer InstructGPT outputs over outputs from GPT-3. On our test set,
outputs from the 1.3B parameter InstructGPT model are preferred to outputs from the 175B GPT-3,
despite having over 100x fewer parameters. These models have the same architecture, and differ only
by the fact that InstructGPT is fine-tuned on our human data.

Перевод:
На нашем тестовом наборе
результаты модели InstructGPT с 1,3B параметрами предпочтительнее результатов модели GPT-3 с 175B параметрами,
несмотря на более чем 100-кратное уменьшение количества параметров.

Ссылка: https://arxiv.org/abs/2203.02155

То есть факт, что существуют методы, которые позволяют добиваться кратного роста в качестве БЕЗ гигантских моделей.

arxiv.org

Training language models to follow instructions with human feedback

Jordex

19.03.2023

Количество ГПУ влияет только на время обучения. Можно было chatgpt4 обучить и на одной древней видеокарте, только времени потребуется много.

Тут нужно не мощности обсуждать, а количество данных на которых будет происходить обучение. Из статьи понятно что это узкоспециализированная модель, следовательно и обучаться она должна на меньшем объеме данных.

Зеленый Грузчик

20.03.2023

Пока читал, такое же ощущение возникло. Думал, что показалось, ан нет.

8 апр

Привет, приходите к нам на вебинар, нам исполнился год https://fractaltech.timepad.ru/event/2816471/

Аккаунт удален

Комментарий недоступен

Вы очень быстры, даже не думал, что первый ошибающийся на наш счет появится через 1 минуту после поста)
Давайте по порядку:
1. Мы не Гугл, не OpenAi, и даже не Сбер, мы небольшой стартап, поэтому мы можем себе позволить анонс как манифест, намерение
2. У нас есть свой продукт, который уже продается, это ИИ психолог Сабина Ai, подробнее в статье на VC.ru (очень много скринов демо) https://vc.ru/tribuna/518295-sabina-ai-ii-avatar-chatbota-psihologa-s-kotorym-mozhno-obshchatsya-kak-s-chelovekom
3. Вам с текстом делать ничего не нужно - достаточно следить за обновлениями проекта, чтобы убедиться реально у нас есть разработки или же их и вовсе нет
4. Недавно я вернулся с международной ИИ конференции OpenTalks.ai - там я делал доклад о разработке нашей команды - библиотеке ExplainitAll, поверьте на конфу не берут кого попало, так что нас в сообществе ИИ знают. Пруф, страница спикеров (доклад был 7го марта): https://opentalks.ai/en/speakers

Российские разработчики объявили о старте FractalGPT – аналога ChatGPT и GPT-4 от OpenAi

Наша цель

Статус

Архитектура

Проблема

Решение

Научная новизна

Ожидаемые результаты

Области применения

Часто задаваемые вопросы (FAQ)

Авторы