Пост в сообществе Софт на DTF

Оптимизация процессов управления хостинг-серверами: как повысить эффективность работы и снизить издержки

Рынок хостинга продолжает оставаться одной из наиболее высококонкурентных сфер ИТ-индустрии. Даже в российском сегменте, который сейчас переживает определенный передел, вызванный усилением давления регуляторов, сегодня насчитывается около 500 хостинг-провайдеров — и это только официальных. Чтобы удержаться на плаву, хостерам необходимо соответствовать как требованиям со стороны властей, так и ожиданиям клиентов. Одних низких цен недостаточно: клиентам важна не только стоимость услуг, но и уровень сервиса — гарантированная доступность, безопасность данных, возможности масштабирования, качество технической поддержки. Ведь если один провайдер не сможет этого предложить, пользователь просто уйдет к другому, считает Павел Гуральник, генеральный директор ISPsystem — российского разработчика платформ для комплексного управления ИТ-инфраструктурой.

Павел Гуральник, генеральный директор ISPsystem — российского разработчика платформ для комплексного управления ИТ-инфраструктурой.

На первый взгляд может показаться, что в управлении физической инфраструктурой (читай — серверами) хостинга нет экстремально сложных задач. Закупи качественное оборудование, размести его в хорошем дата-центре не ниже Tier III, накати современное ПО для управления, выдавай услуги — profit! В реальности же ситуация сильно сложнее.

Как правило, ИТ-инфраструктура провайдера состоит из оборудования разных производителей. При этом каждый производитель предлагает собственное ПО для управления серверами. Использование "фирменных" решений в условиях разнородной инфраструктуры неизбежно приведет к появлению "зоопарка" инструментов и невозможности управлять ИТ-инфраструктурой единообразно. Дополнительные сложности создает географическая распределенность инфраструктуры. Редкий провайдер ограничивается одной ИТ-площадкой, а значит, без специализированного ПО придется управлять каждой локацией отдельно.

Также не стоит забывать, что управлять оборудованием — мало, его также нужно мониторить и учитывать. Отсутствие информации о том, сколько оборудования сейчас используется, как оно работает и в каком оно состоянии, снижает общий уровень контроля над "железом" и затрудняет планирование закупок.

А еще все эти процессы — от добавления серверов до их выдачи конечному пользователю желательно автоматизировать. Вряд ли клиент будет ждать, пока провайдер вручную проверит сервер, очистит его от предыдущего владельца, накатит туда нужное ПО и выдаст доступы. При этом самому провайдеру желательно автоматизировать не только подготовку серверов, но и другие рутинные процессы. В противном случае все эти операции лягут на плечи сотрудников.

Что имеем в итоге:

● Много разнообразного оборудования, для управления которым используется целый зоопарк инструментов.

● ИТ-инфраструктура распределена географически, площадки могут находится в разных городах и странах. Провайдеру приходится управлять каждой локацией отдельно.

● Из-за количества локаций, разнообразия инструментов управления и учета нет нет сводной информации о том, где находится каждая единица техники, как она работает и используется.

● Низкий уровень автоматизации вынуждает выполнять многие операции вручную. Это долго, повышает нагрузку на сотрудников и риск возникновения ошибок и уязвимостей.

Какие инструменты позволяют решить эти проблемы и упростить управление ИТ-инфраструктурой?

Важную роль в оптимизации процесса управления серверами играют инструменты мониторинга. Они позволяют провайдеру отслеживать состояние оборудования в режиме реального времени, оперативно выявлять и устранять возможные сбои.

Чтобы получить максимум информации о состоянии оборудования и развернутых на нем сервисов, потребуются продвинутые средства мониторинга вроде Nagios, Zabbix или Prometheus, а в связке с ними — инструменты визуализации, например, Grafana. Такие решения позволяют отслеживать работу практически любых компонентов современной ИТ-инфраструктуры — серверов, сетевого оборудования, операционных систем, баз данных, виртуальных машин и приложений. Все операции, от сбора метрик до оповещения, автоматизированы. Кстати, по результатам исследования состояния DevOps в России от команды Экспресс 42, проведенного в 2023 году, именно Prometheus признан наиболее популярным инструментом сбора метрик в российских компаниях.

Средства мониторинга помогают не только автоматизировано отслеживать актуальное состояние оборудования и сервисов, но и анализировать эффективность работы ИТ-инфраструктуры — вовремя выявлять проблемные зоны, которые нуждаются в оптимизации, планировать модернизацию или масштабирование.

Когда в инфраструктуре всего несколько серверов, которые можно один раз настроить и на пару месяцев забыть, автоматизация не имеет практического смысла. Но что делать, если вы — провайдер и у вас этих серверов сотни или тысячи?

Здесь на помощь приходят инструменты для управления физической инфраструктурой. Они позволяют без присутствия сотрудников на площадке производить с серверами и окружающим их оборудованием определенные операции — включать, выключать и перезагружать их, управлять подключениями к сети, устанавливать ОС и многое другое. При этом не имеет значения, насколько друг от друга удален ЦОД и центр управления им, такое ПО позволяет управлять дата-центром, даже если он находится за тысячи километров от администратора. Быстро, эффективно и затрат на дополнительные «руки» в ЦОДе.

На российском рынке самый известных продукт этого класса — DCImanager. С помощью такого софта можно контролировать состояние серверов — температуру, трафик, потребление электроэнергии. А многие входные решения позволяют не только управлять ИТ-инфраструктурой, но и отслеживать ее состояние и корректность работы. Если что-то пойдет не так, администратор получит соответствующее уведомление и сможет предпринять меры еще до того, как проблема встанет в полный рост и вызовет перебой в работе сервиса.

Поскольку такие инструменты комплексно решают задачу управления оборудованием, с их помощью можно удобно учитывать все имеющееся железо. В любой момент можно зайти и посмотреть расположение серверов вплоть до конкретной стойки, что лежит на складе, сколько оборудования вообще используется, а сколько свободно и многое другое. Никаких разрозненных Excel-табличек и прочей бюрократии.

Также оптимизировать процесс управления позволяют системы удаленного управления конфигурациями вроде Puppet, Chef или Ansible. Самым популярным из них сегодня считается именно Ansible. Он позволяет описать все необходимые манипуляции с сервером в одном файле — плейбуке. Плейбук пишется на YAML и представляет собой сценарий действий, которые необходимо произвести с сервером, чтобы привести его в желаемое состояние. Главная фишка плейбука — идемпотентность, а если проще — гарантия одинакового результата после запуска.

С помощью Ansible можно одновременно управлять целыми группами серверов — настраивать конфигурацию, разворачивать приложения, создавать виртуальные машины и контейнеры. Каждый провайдер сам решает, какие именно процессы автоматизировать. Например, Selectel с помощью Ansible управляет инфраструктурой распределённых NS-серверов.

Дополнительно инструменты управления конфигурацией повышают уровень защищенности ИТ-инфраструктуры — они позволяют автоматизировано удалять неиспользуемые приложения и сервисы, которые могут расширять поверхность атаки, настраивать сеть и средства шифрования, массово применять политики безопасности и обновлять ПО. Автоматизация не только снимает необходимость вручную работать с каждым сервером по отдельности, но и снижает влияние человеческого фактора, исключая возникновение ситуаций, когда администратор, например, попросту забыл установить патч безопасности и закрыть уязвимость.

Некоторые DCIM-решения позволяют автоматизировать не только управление серверами на физическом уровне — включить, выключить, перезагрузить — но и более сложные операции. Особенно, если речь идет о системах, которые заточены именно под задачи провайдеров, вроде DCImanager Hosting. С помощью таких платформ можно перевести в автоматический режим не только управление железом, но и весь цикл его подготовки к выдаче.

Например, DCImanager автоматически добавляет новые серверы, а перед выдачей клиенту проводит полную подготовку оборудования:

● проверяет состояние сервера и комплектующих;

● автоматически устраняет найденные неполадки с помощью готовых шаблонов диагностики;

● с помощью скриптов устанавливает нужное ПО по шаблону из библиотеки и донастраивает его;

● назначает IP-адрес из пула доступных.

Важная фича именно этой платформы — поддержка мультивендорной и геораспределенной ИТ-инфраструктуры. Помните, ранее мы говорили о том, что провайдерам приходится использовать для управления разнородной инфраструктурой множество разных инструментов? Если кратко, платформа позволяет управлять железом самых разных вендоров, мониторить и учитывать его — буквально в одном окне, даже если у провайдера куча площадок по всему миру.

Провайдеру также необходимо защищать собственную инфраструктуру от атак специализированными средствами. Как правило, под решение задач безопасности формируется целый отдел. Безопасники отвечают за регулярное сканирование систем на наличие уязвимостей, защиту от DDoS и других киберугроз. Ведь если провайдерская инфраструктура упадет под шквалом мусорного трафика, за ней прилягут и клиентские сервисы. Для получения полной картины информационной безопасности инфраструктуры внедряются SIEM-системы, которые позволяют вовремя заметить в сети нелегитимные события и принять меры для предотвращения критических ситуаций. Как правило, чем крупнее поставщик сервиса, тем больше средств защиты он может себе позволить. Часто провайдеры открыто рассказывают о том, как именно защищена их инфраструктура, публикуют политики безопасности, а по запросу могут предоставить и более расширенную информацию, например, документы, подтверждающие уровень защищенности или соответствие отраслевым стандартам.

Суммируя опыт провайдеров, можно сформулировать несколько базовых советов по оптимизации процесса управления серверами:

● Средства мониторинга — наше все. Отслеживайте работу инфраструктуры с помощью специализированных инструментов мониторинга, используйте эту информацию не только в моменте, когда что-то пошло не так, но и для оптимизации производительности.

● Чем меньше ручных операций — тем лучше. Автоматизация развертывания и обновления ПО, настройки конфигурации поможет снизить количество человеческих ошибок, нагрузку на сотрудников и время выполнения рутинных задач.

● Внедрение ИБ-решений — антивирусных средств, фаерволов, средств защиты от DDoS, SIEM-систем, IDS/IPS — не отменяет того факта, что у вас должен быть четкий план реагирования на киберинциденты и регламент действий в нештатных ситуациях.

● Регулярный аудит — залог здоровья. Регулярная проверка оборудования, его конфигураций и установленного ПО поможет найти уязвимости раньше, чем это сделают злоумышленники, вовремя модернизировать устаревающие мощности и найти точки оптимизации.

Проблемы, с которыми сталкиваются провайдеры при управлении хостинг-серверами

Как оптимизировать управление серверами

Мониторинг

Управление и учет

Конфигурация

Автоматизация операций

Безопасность

Практические советы по улучшению процессов управления серверами для хостинг-провайдеров