В предлагаемом нами решении проблема поиска, конструирования фактов, событий, рассуждений решается с помощью синергии в применении 3х подходов к обучению моделей использовать внешние базы знаний, обновлять веса модели и видоизменять граф логического вывода и постоянно обучаться учиться лучше (learn-to-learn):
1. Toolformer + MRKL - подход, позволяющий модели обучаться правильно использовать запросы во внешние базы знаний (API calls), в том числе запросы в другие ранее обученные модели и таким образом строить логические цепочки, аналогичные chain-of-thought (https://ai.googleblog.com/2022/05/language-models-perform-reasoning-via.html) но более длинные, сложные, с ветвлениями, циклами, логикой предикатов и квантификаторов, оперирующие неполными и неточными данными(аналогично NARS https://www.applied-nars.com/ ). Подход показал свою полезность в задачах вызова нужных данных при поиске, подсчетах, анализе дат, вопросно-ответной системе в статьях: Toolformer: Language Models Can Teach Themselves to Use Tools (https://arxiv.org/abs/2302.04761 ) и MRKL Systems A modular, neuro-symbolic architecture that combines large language models, external knowledge sources and discrete reasoning (https://arxiv.org/pdf/2205.00445.pdf )
Чтоб обучить гпт 4.0 опенаи потребовался кластер из 10 тысяч гпу. У яндекса самый крупный кластер это 1.6 тысяч. У теслы примерно такого же масштаба, и они заявляли что у них 6ой крупнейший в мире. В россии просто нет таких кластеров. Опенаи его сделали после того как в них влили 10 лярдов баксов. Это задача уровня великих строек коммунизма. Не вчитывался в статью, но звучит как развод каких-то лохов на даллары. Видимо очередной попил. Удачи в пилении.
Я дал лайк вашему комментарию, тк он первый технический и по существу.
Хотя так и хочется влепить мем "не читал, но осуждаю".
Теперь по фактам: мы отлично знаем, что на обучение GPT-like моделей потрачено только на GPU более 10млн долларов, из открытых источников. Та же ситуация с Meta, Nvidia.
Сбер тоже много тратит, мы партнеры SberCloud.
НО: на текущем этапе в плане нет обучения своих больших LLM, нам достаточно тех, что уже обучены - многие из них есть в опенс-сорс, например GPT-JT, LLama утекла, BLOOM и другие. Му уже проверили и точно выяснили, что для МВП их достаточно. Поэтому мы как Ньютон - этот проект возможен только потому, что "мы стоим на плечах гигантов".
Вывод: нам не нужны миллионы долларов на GPU, по крайней мере пока.
Я еще проиллюстрирую свой тезис цитатой из статьи OpenAi про обучение InstructGPT:
Labelers significantly prefer InstructGPT outputs over outputs from GPT-3. On our test set,
outputs from the 1.3B parameter InstructGPT model are preferred to outputs from the 175B GPT-3,
despite having over 100x fewer parameters. These models have the same architecture, and differ only
by the fact that InstructGPT is fine-tuned on our human data.
Перевод:
На нашем тестовом наборе
результаты модели InstructGPT с 1,3B параметрами предпочтительнее результатов модели GPT-3 с 175B параметрами,
несмотря на более чем 100-кратное уменьшение количества параметров.
Ссылка: https://arxiv.org/abs/2203.02155
То есть факт, что существуют методы, которые позволяют добиваться кратного роста в качестве БЕЗ гигантских моделей.
Количество ГПУ влияет только на время обучения. Можно было chatgpt4 обучить и на одной древней видеокарте, только времени потребуется много.
Тут нужно не мощности обсуждать, а количество данных на которых будет происходить обучение. Из статьи понятно что это узкоспециализированная модель, следовательно и обучаться она должна на меньшем объеме данных.
Пока читал, такое же ощущение возникло. Думал, что показалось, ан нет.
Привет, приходите к нам на вебинар, нам исполнился год https://fractaltech.timepad.ru/event/2816471/
Комментарий недоступен
Вы очень быстры, даже не думал, что первый ошибающийся на наш счет появится через 1 минуту после поста)
Давайте по порядку:
1. Мы не Гугл, не OpenAi, и даже не Сбер, мы небольшой стартап, поэтому мы можем себе позволить анонс как манифест, намерение
2. У нас есть свой продукт, который уже продается, это ИИ психолог Сабина Ai, подробнее в статье на VC.ru (очень много скринов демо) https://vc.ru/tribuna/518295-sabina-ai-ii-avatar-chatbota-psihologa-s-kotorym-mozhno-obshchatsya-kak-s-chelovekom
3. Вам с текстом делать ничего не нужно - достаточно следить за обновлениями проекта, чтобы убедиться реально у нас есть разработки или же их и вовсе нет
4. Недавно я вернулся с международной ИИ конференции OpenTalks.ai - там я делал доклад о разработке нашей команды - библиотеке ExplainitAll, поверьте на конфу не берут кого попало, так что нас в сообществе ИИ знают. Пруф, страница спикеров (доклад был 7го марта): https://opentalks.ai/en/speakers