ElevenLabs Workflows: как построить голосового агента, который не облажается в продакшене
ElevenLabs выкатили Agent Workflows — визуальный редактор для программирования диалогов. Теперь вместо молитв над промптами ты получаешь drag-and-drop интерфейс с условными переходами, гарантированными вызовами API и передачей на живого человека. Всё то, что раньше требовало кастомной разработки на неделю, теперь собирается за пару часов.
Кстати, я Антон, моя работа - внедрение ИИ в бизнес и разработка ИИ-агентов.
Проблема голосовых агентов до Workflows
Голосовой бот на промптах есть чистая лотерея. Ты пишешь инструкцию, даёшь набор функций, тестируешь на десятке диалогов, всё работает. Запускаешь в продакшен... и агент забывает вызвать API проверки склада, начинает галлюцинировать цены или переводит клиента в несуществующий отдел.
Дальше ты часами переписываешь промпт, ловишь edge cases, но языковая модель по природе вероятностная. А бизнес-логика требует детерминированности: в конкретной точке диалога должно произойти конкретное действие. Без вариантов.
А еще ты можешь не знать, например, про инструмент SSML-тегов, который делает речь на русском живее и естественнее в 100 раз. И о том, что я даже в ТГ-канале публиковал готовый промпт, который расставляет эти теги в тексте. Обязательно скопируй его, если планируешь делать голосового агента.
Agent Workflows: визуальное программирование диалогов
Теперь у тебя визуальный редактор потоков. Ты строишь диалог как flowchart: узлы, рёбра, ветвления.
Ключевые компоненты:
• Workflow Editor — канвас для построения логики разговора
• Sub Agents — разные личности внутри одного бота
• Dispatch Nodes — гарантированные вызовы API
• Conditional Edges — умная маршрутизация по контексту
• Human Handoff — передача на живого оператора
Каждый узел — это этап разговора со своей логикой, промптом и моделью.
Как это работает на практике
Sub Agents — переключение контекста
Клиент звонит в поддержку. На входе его встречает дружелюбный агент с лёгким тоном. Клиент говорит «биллинг» — и бот переключается на sub-agent с серьёзным голосом, профессиональными формулировками и доступом к платёжным API.
В каждом sub-agent меняется:
- Голос
- Системный промпт
- Набор инструментов
- Языковая модель (лёгкая на простых вопросах, мощная на сложных)
Это как команда специалистов внутри одного бота.
Dispatch и Tool Nodes — детерминированные действия
Раньше инструменты были опциональными. Модель сама решала, вызывать функцию или придумать ответ.
Теперь есть dispatch node — узел, который в этой точке диалога обязан вызвать API. Модель не выбирает. Она выполняет.
И главное: ты настраиваешь пути успеха и провала:
- API вернул данные? → Идём по одной ветке
- Вернул ошибку/таймаут? → По другой ветке с извинениями и передачей человеку
Это production-level error handling прямо внутри диалога.
LLM и Expression-based Edges — умная маршрутизация
Два типа условных переходов:
- LLM-evaluation — модель анализирует эмоцию/контекстКлиент раздражён? → Узел де-эскалацииКлиент спокоен? → Обычный путь
- Deterministic expressions — жёсткие правила:
Слово «отмена» → Retention-отдел
Упомянут продукт X → Специалист по X
Agent Transfer и Human Handoff
Критично для реального бизнеса:
- Передача другому агенту (от универсального к специализированному)
- Передача живому оператору через transfer to number
Человек получает всю историю и подхватывает диалог. Гибридная система: ИИ обрабатывает типовое, люди — сложное и критичное.
Testing Harness — песочница для отладки
Внутри редактора встроена среда тестирования:
- Вводишь реплики
- Смотришь путь агента по узлам
- Видишь вызовы API
- Ловишь баги до продакшена
Есть guardrails — защитные ограничения против зацикливания и нежелательных действий.
Экономика внедрения
Скорость разработки:
- Раньше: месяцы тестирования и переписывания промптов
- Сейчас: нашёл проблему → отредактировал узел → протестировал → задеплоил
Оптимизация затрат:
- Миксуешь модели: лёгкие для простых вопросов, мощные для сложных
- Оптимизируешь cost per conversation
Надёжность:
- Детерминированные пути
- Знаешь, что произойдёт на каждом шаге
- Никаких сюрпризов в продакшене
Мультиканальность
Один workflow — три канала:
- Телефонный бот
- Веб-чат
- Голосовой интерфейс в приложении
Логика одна. Меняется только канал ввода-вывода. Enterprise-уровень масштабируемости.
Практический план действий
Шаг 1: Прототип
- Зайди на сайт ElevenLabs
- Открой раздел Agent Workflows
- Собери простой флоу: приветствие → сбор данных → завершение
Шаг 2: Анализ процессов Определи, что автоматизировать:
- Квалификация лидов?
- Запись на консультацию?
- Первая линия поддержки?
- Приём заказов?
Шаг 3: Проектирование Нарисуй поток на бумаге:
- Какие API нужны?
- Где передача человеку?
- Где развилки по эмоции клиента?
Шаг 4: Реализация и тестирование
- Собери в визуальном редакторе
- Протестируй в песочнице
- Запусти на небольшой группе клиентов
- Анализируй метрики и улучшай
И кайфуйте!