реклама
разместить

Современные требования к инфраструктуре для агентских AI-систем. Развертывание, поддержка и операционные расходы

Агентские AI-системы, которые могут взаимодействовать с окружением посредством сложных интеграций,принимать автономные решения и адекватно реагировать на обратную связь от пользователя, требуют серьезной инфраструктурной поддержки. В этой статье я собираюсь рассмотреть ключевые аспекты развертывания и поддержки таких систем как в облаке, так и на выделенных кластерах. За основу я возьму свой опыт развертывания агентской системы в кластере Linux-серверов, где все сложности по конфигурации и поддержке инфраструктуры ложатся на разработчика, а также в облаке с более широкими возможностями автоматизации инфраструктурных процессов. Я рассмотрю также операционные расходы и возможные трудности, связанные с разработкой агентских систем под каждую из платформ.

Современные требования к инфраструктуре для агентских AI-систем. Развертывание, поддержка и операционные расходы

Начнем с основных компонентов инфраструктуры агентских AI-систем. Прежде чем рассматривать конкретные сценарии развертывания, стоит выделить следующие ключевые компоненты инфраструктуры агентской AI-системы:

  • Облачные или локальные вычислительные ресурсы (GPU, TPU, CPU-кластеры). Лет шесть назад мне пришлось переоборудовать под GPU-кластер древнюю майнинг-ферму, где все необходимое для ML-стека окружение приходилось настраивать с нуля. Сейчас, как правило, я работаю с виртуальными GPU-серверами в облаке, используя готовые образы с необходимым набором библиотек (CUDA и т. д.);
  • Системы хранения данных (БД, хранилища файлов и объектов, распределенные файловые системы). В 99% случаев агенты будут работать с данными, получаемыми из различных внешних источников и загружаемыми в RAG пайплайн. Изначально эти данные могут представлять собой текстовые или другие файлы, и для операций с ними очень популярны объектные хранилища, которые сами по себе максимально просты - сложности возникают, когда эти файлы нужно передавать в пайплайн для дальнейшей обработки, обычно в больших объемах. Для этого тоже есть популярные решения, такие как AWS Kinesis, Kafka, Airflow;
  • Сетевые решения для обмена данными внутри кластера. Агентская система включает несколько компонентов, часто это несколько моделей-агентов, каждый работает с назначенной ему группой задач. Сетевой обмен между ними представляет довольно нетривиальный процесс. Хорошо, если разработчик использует API какой-то AI-платформы вроде OpenAI, т. е. он сам отвечает за реализацию только клиентской части. Тогда его забота - это обмен сообщениями между агентами по HTTP/gRPC, хотя все может быть несколько сложнее, если речь идет о мультимодальных агентах (могут понадобиться мультимедиа-протоколы - я, например, использовал RTP/UDP). A вот если система предполагает хостинг своих моделей локально или в облаке, то приходится думать и о пропускной способности видеопамяти каждого из GPU-серверов, о том, сколько запросов они могут обрабатывать параллельно при инференсе. Это требует отдельной специализированной инфраструктуры, такой как LLM-серверы с поддержкой continuous batching (TGI, vLLM). И, наконец, обмен данными между несколькими GPU в кластере. Есть hardware-решения и стандарты для этого, тот же NVIDIA NVLink.
  • Оркестрация и управление контейнерами (Docker, Kubernetes). В многокомпонентной системе, каковую представляют собой агенты, без контеризации никак. Несколько лет назад, разрабатывая систему в кластере из нескольких железных серверов на Centos 7, я просто запускал все сервисы в докере и docker-compose, включая несколько NLU-агентов на ранних трансформерах. Однозначно это не самое оптимальное решение, для облегчения оркестрации ваших контейнеров рекомендуется Kubernetes. Не забудем про средства мониторинга и логирования (Prometheus, Grafana, ELK-стек), автоматизированный CI/CD.

С учетом всего вышесказанного, чем больше перечисленного выбранная вами облачная платформа предоставляет из коробки, тем лучше она подходит для развертывания агентских AI-систем. Такие системы имеют тенденцию к масштабированию объемов данных и GPU ресурсов, так что вам будет жизненно необходимо иметь возможность увеличивать мощности по мере необходимость. Хорошо, если вашу инфраструктуру легко тестировать на совместимость с новыми конфигурациями. Наконец, бонус в пользу облачных платформ - высокая доступность: SLA провайдеров обеспечивает надежность.

Есть, однако, некоторые минусы и сложности - обычно в облаке достаточно высокие операционные расходы: почасовая тарификация GPU и TPU-ресурсов. Также вечная проблема облаков - ограничения по конфигурации: нельзя полноценно оптимизировать железо. Поэтому рассмотрим чуть подробнее развертывание агентской системы на выделенном кластере. Здесь очень важен выбор аппаратного обеспечения. Если агентская AI-система требует постоянных вычислений, то вместо стороннего API для инференса может быть выгоднее использовать собственный кластер с GPU-серверами. Для агентов, работающих с RAG и промежуточными шагами генерации, необходимыми для построения цепочек рассуждений, скорость генерации токенов имеет даже более критическое значение, чем для простых чатботов. Так что не стоит забывать сказанное выше про требования к сетевой инфраструктуре, и задействовать высокоскоростные сети, например, InfiniBand и упомянутый NVLink.

Из преимуществ выделенного кластера вы получаете полный контроль над кастомизацией ПО и оборудования, cнижение затрат - в долгосрочной перспективе это будет дешевле облака, и меньшую зависимость от внешних сервисов.

Однако первоначально кластер требует более высоких первоначальных инвестиций, даже если вы не строите, как Илон Маск, датацентр Colossus c 200K H100. И не только инвестиций в железо, но и в команду с более высоким уровнем экспертизы в области инфраструктуры, так как с первых дней перед вами встанет необходимость администрирования кластера. Наконец, есть такой существенный для агентских систем минус, как ограниченная по сравнению с облаком масштабируемость.

Что касается операционных расходов, oсновные статьи - это энергопотребление: GPU-кластеры требуют значительных мощностей, пропиетарное закрытое ПО: коммерческие AI-решения могут быть дорогими, и обслуживание: техподдержка, обновления, обеспечение отказоустойчивости.

Трудности в эксплуатации кластера, к которым нужно быть готовым - это балансировка нагрузки: распределение вычислений по узлам, задача, которая никогда не была тривиальной; обновление и файнтюнинг моделей (если вы хотите использовать открытые веса) и организация CI/CD для ML. Наконец, необходим мониторинг и отладка - контроль метрик, журналирование.

В итоге выбор между облаком и выделенным кластером зависит от требований агентской AI-системы. Облако подходит для масштабируемых решений и быстрого развертывания, а собственные кластеры оправданы при постоянных высоких нагрузках.

11
реклама
разместить
Начать дискуссию
Смогут ли нейросети «оживить» диалоги в играх
Смогут ли нейросети «оживить» диалоги в играх

Диалоги с неигровыми персонажами (NPC) основаны на скриптах. Эта ограниченность делает беседы предсказуемыми, если не сказать — скучными. Некоторые эксперты считают, что искусственный интеллект позволит создать по-настоящему живых персонажей. Они будут реалистично реагировать на любые действия и даже голосовые запросы игроков. Но так ли хороша эта…

11
11
реклама
разместить
Спич про ИИ Агентов и про ближайшее будущее 🤖

Друзья, давайте поговорим о будущем, которое уже не за горами. Мы стоим на пороге революционных изменений, когда оптимизации и автоматизация достигнут небывалых высот.

Manus — автономный помощник, аналитика нового поколения или что? (короткая новость)
Manus — автономный помощник, аналитика нового поколения или что? (короткая новость)

AI-агент Manus от китайского стартапа Monica обещает решение сложных задач, от планирования путешествий до финансового анализа, в полностью автономном режиме. Однако, впечатляющие ранние демонстрации пока не подтверждены широким доступом, а ключевые технические детали остаются засекреченными, что вызывает вопросы о его реальных возможностях.

66
22
Как написать сложный пользовательский шейдер для Unreal Engine

Не привлекая внимания санитаров.

Как написать сложный пользовательский шейдер для Unreal Engine
3333
99
11
после прочтения поняла только что ты очень умный, а я очень тупая
Рендеринг процедурных поверхностей с использованием технологии маршировки лучей на основе функций полей расстояний со знаком

Напиши заголовок типа на диссертацию тянет.

Я в своей голове
3636
55
11
11
Как правильно проапгрейдить игровой ПК в 2025 году
Как правильно проапгрейдить игровой ПК в 2025 году

Как правильно обновить железо, продлить жизнь компьютеру и на протяжении нескольких лет играть в современные игры без тормозов и зависаний. В этом материале — только практические советы и конкретные рекомендации.

1818
88
33
11
Сценарий применения LLM из личного опыта
Сценарий применения LLM из личного опыта

Чем больше осваиваю нейросетевые технологии, тем больше разнообразных сценариев использования открывается, в которых это может помочь увеличить продуктивность и эффективность. Об одном из таких сценариев, думаю, будет полезно рассказать.

66
Оптимизация в 3D-графике: максимум качества, минимум ресурсов
Оптимизация в 3D-графике: максимум качества, минимум ресурсов

Простым языком про оптимизацию 3D-графики. Как художники и разработчики видеоигр добиваются лучшего качества изображения при минимальных затратах системных ресурсов. Разберём ключевые принципы оптимизации и технологии, которые лежат в их основе.

6666
33
реклама
разместить
Как вкатиться в AI и ML, чтобы получать хорошие деньги (но, увы, не наносеки)

Пошаговая инструкция

Кадр из Ex Machine<br />
6868
11
Статья кстати мусор
Первая концепция российской игровой консоли, точные характеристики GeForce RTX 5090, орбитальный блокчейн: главные «железные» новости недели

Восемнадцатый выпуск дайджеста для пользователей DTF и наших будущих подписчиков.

Первая концепция российской игровой консоли, точные характеристики GeForce RTX 5090, орбитальный блокчейн: главные «железные» новости недели
1313
44
11
Что на самом деле показало нашумевшее исследование о «сбежавших и обманывающих» больших языковых моделях
Что на самом деле показало нашумевшее исследование о «сбежавших и обманывающих» больших языковых моделях

Всем привет! В последнее время я заметил множество постов и статей в русскоязычном сегменте интернета, которые ссылаются на одно интересное исследование, но интерпретируют его… скажем так, довольно своеобразно. Часто можно встретить заголовки вроде «ИИ научился обманывать чтобы спастись!» или «Нейросети вышли из-под контроля и пытались сбежать!». Э…

66
[]