Чтоб обучить гпт 4.0 опенаи потребовался кластер из 10 тысяч гпу. У яндекса самый крупный кластер это 1.6 тысяч. У теслы примерно такого же масштаба, и они заявляли что у них 6ой крупнейший в мире. В россии просто нет таких кластеров. Опенаи его сделали после того как в них влили 10 лярдов баксов. Это задача уровня великих строек коммунизма. Не вчитывался в статью, но звучит как развод каких-то лохов на даллары. Видимо очередной попил. Удачи в пилении.
Я дал лайк вашему комментарию, тк он первый технический и по существу. Хотя так и хочется влепить мем "не читал, но осуждаю". Теперь по фактам: мы отлично знаем, что на обучение GPT-like моделей потрачено только на GPU более 10млн долларов, из открытых источников. Та же ситуация с Meta, Nvidia. Сбер тоже много тратит, мы партнеры SberCloud. НО: на текущем этапе в плане нет обучения своих больших LLM, нам достаточно тех, что уже обучены - многие из них есть в опенс-сорс, например GPT-JT, LLama утекла, BLOOM и другие. Му уже проверили и точно выяснили, что для МВП их достаточно. Поэтому мы как Ньютон - этот проект возможен только потому, что "мы стоим на плечах гигантов". Вывод: нам не нужны миллионы долларов на GPU, по крайней мере пока. Я еще проиллюстрирую свой тезис цитатой из статьи OpenAi про обучение InstructGPT:
Labelers significantly prefer InstructGPT outputs over outputs from GPT-3. On our test set, outputs from the 1.3B parameter InstructGPT model are preferred to outputs from the 175B GPT-3, despite having over 100x fewer parameters. These models have the same architecture, and differ only by the fact that InstructGPT is fine-tuned on our human data.
Перевод: На нашем тестовом наборе результаты модели InstructGPT с 1,3B параметрами предпочтительнее результатов модели GPT-3 с 175B параметрами, несмотря на более чем 100-кратное уменьшение количества параметров.
Количество ГПУ влияет только на время обучения. Можно было chatgpt4 обучить и на одной древней видеокарте, только времени потребуется много.
Тут нужно не мощности обсуждать, а количество данных на которых будет происходить обучение. Из статьи понятно что это узкоспециализированная модель, следовательно и обучаться она должна на меньшем объеме данных.
Чтоб обучить гпт 4.0 опенаи потребовался кластер из 10 тысяч гпу. У яндекса самый крупный кластер это 1.6 тысяч. У теслы примерно такого же масштаба, и они заявляли что у них 6ой крупнейший в мире. В россии просто нет таких кластеров. Опенаи его сделали после того как в них влили 10 лярдов баксов. Это задача уровня великих строек коммунизма. Не вчитывался в статью, но звучит как развод каких-то лохов на даллары. Видимо очередной попил. Удачи в пилении.
Я дал лайк вашему комментарию, тк он первый технический и по существу.
Хотя так и хочется влепить мем "не читал, но осуждаю".
Теперь по фактам: мы отлично знаем, что на обучение GPT-like моделей потрачено только на GPU более 10млн долларов, из открытых источников. Та же ситуация с Meta, Nvidia.
Сбер тоже много тратит, мы партнеры SberCloud.
НО: на текущем этапе в плане нет обучения своих больших LLM, нам достаточно тех, что уже обучены - многие из них есть в опенс-сорс, например GPT-JT, LLama утекла, BLOOM и другие. Му уже проверили и точно выяснили, что для МВП их достаточно. Поэтому мы как Ньютон - этот проект возможен только потому, что "мы стоим на плечах гигантов".
Вывод: нам не нужны миллионы долларов на GPU, по крайней мере пока.
Я еще проиллюстрирую свой тезис цитатой из статьи OpenAi про обучение InstructGPT:
Labelers significantly prefer InstructGPT outputs over outputs from GPT-3. On our test set,
outputs from the 1.3B parameter InstructGPT model are preferred to outputs from the 175B GPT-3,
despite having over 100x fewer parameters. These models have the same architecture, and differ only
by the fact that InstructGPT is fine-tuned on our human data.
Перевод:
На нашем тестовом наборе
результаты модели InstructGPT с 1,3B параметрами предпочтительнее результатов модели GPT-3 с 175B параметрами,
несмотря на более чем 100-кратное уменьшение количества параметров.
Ссылка: https://arxiv.org/abs/2203.02155
То есть факт, что существуют методы, которые позволяют добиваться кратного роста в качестве БЕЗ гигантских моделей.
Количество ГПУ влияет только на время обучения. Можно было chatgpt4 обучить и на одной древней видеокарте, только времени потребуется много.
Тут нужно не мощности обсуждать, а количество данных на которых будет происходить обучение. Из статьи понятно что это узкоспециализированная модель, следовательно и обучаться она должна на меньшем объеме данных.
Пока читал, такое же ощущение возникло. Думал, что показалось, ан нет.
Привет, приходите к нам на вебинар, нам исполнился год https://fractaltech.timepad.ru/event/2816471/