Как я потратил $500 за 10 дней на вайбкодинг AI редактора для видео c открытым исходным кодом

Всем привет! Я потратил на ии кодинг 500 долларов за 10 дней работы с Девином, и в результате у меня получился онлайн редактор для АИ видео с открытым исходным кодом. Кто такой Девин, зачем я это делал и что в итоге получилось. Разбираемся ниже.

Как я потратил $500 за 10 дней на вайбкодинг AI редактора для видео c открытым исходным кодом

И наверное мой рассказ стоит начать с того, что я не разработчик, т.е. вообще совсем. Я конечно могу читать код и даже что-то понимать, но это просто потому что последние 20 лет занимаюсь ведением проектов в качестве продакта и проджекта.

Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me, техноблогер и нейро-евангелист. Так что взгляд на все будет с моей колокольни, и скорее всего он сильно отличается от взгляда профессионального разработчиков.

Что у меня получилось?

VideoSOS - это онлайн редактор для создания AI видео через популярные модели вроде VEO, Sora, Kling и других. Главная фишка - использование сервис-провайдеров по себестоимости вместо дорогих подписок, что сильно дешевле чем покупать подписки у каждого сервиса отдельно. Можно генерировать видео из текста или картинок, редактировать таймлайн с несколькими треками, экспортировать результат в разных форматах, добавлять аудио дорожки. Есть поддержка локализации на английский и русский. Работает прямо в браузере без установки.

Но давайте по порядку - зачем мне вообще это было нужно. Я регулярно создаю видео, может видели что-то в моем TikTok или на YouTube. Каждую пятницу на стримах исследую новые нейросети вместе с подписчиками. Работаю со всеми видео-сервисами, у меня подписки на многие из них, есть аккаунты у сервис-провайдеров.

И вот идея - как круто было бы использовать нейросети для генерации видео по себестоимости! Большие сервис-провайдеры часто предоставляют популярные нейронки по себестоимости ради привлечения клиентов. Проблема? Достало бегать между сервисами.

Конечно делать с нуля было бы самоубийством. Нашел заброшенный проект от Fal (один из сервис-провайдеров): https://github.com/fal-ai-community/video-starter-kit. Качество было очень не очень, сильно недоделан, не доходил до MVP по моему пониманию.

Ок, проект нашел, теперь вопрос - как его доделывать? Классический вариант - найти фрилансера. Фрилансеры просят от $500 за MVP с новыми фичами. Деньги те же самые что я в итоге потратил, а опыт получу - ноль.

А мне хотелось именно поучаствовать, понять как это работает. Не просто получить готовое решение, а разобраться в процессе. Своего рода эксперимент.

Результат работы: 250 коммитов от Девина за 10 дней. Работы еще много - нужно пофиксить баги, улучшить UX, добавить больше фич. Если вы тоже генерируете видео и хотите помочь с разработкой - буду рад, проект открытый.

Поиск решения

Пробовал использовать курсор локально - мне не понравилось. Пробовал фаербейс, он работал и даже что-то получалось, но показался неприятным и недружелюбным. Использовал Ohara.ai - там мне очень не хватало синхронизации с гитом.

И вот после долгих мучений и поисков я провел глубокое исследование, нашел Devin.

Девин это агент для кодирования и он оказался лучшим не только по тестам которые я видел, но и по моему собственному опыту. Просто потому что девин действительно работает.

Как я потратил $500 за 10 дней на вайбкодинг AI редактора для видео c открытым исходным кодом

Девин это не просто ассистент вроде GitHub Copilot или ChatGPT который подсказывает код. Это полноценный агент который сам пишет код, тестирует, деплоит, чинит баги. У него есть своя виртуальная машина с браузером, терминалом и редактором кода. Он сам гуглит документацию, читает код, делает коммиты в гит.

Он может работать долго, не эффективно и за ним надо приглядывать - но он работает. А это главное отличие от других инструментов которые я пробовал.

Процесс разработки

Я начинал с простых задач чтобы освоиться и разобраться во всем. Мелкие фиксы интерфейса, добавление новых моделей - прошли без проблем. С добавлением новой локализации тоже справился, но было долго.

Периодически приходится вмешиваться в его работу и следить за процессом. Девин - это не волшебная кнопка “сделай все сам”. Это скорее инструмент который требует присмотра, особенно на сложных задачах. Вы ставите задачу, он работает автономно, но вы следите за процессом и корректируете если что-то идет не так.

И это действительно не дешевое удовольствие. Они сравнивают свой агент с настоящим джуном, и возможно по стоимости они действительно сопоставимы. Но девин это джун который ждет вас дома в три часа ночи.

Не совсем так звучит как я имел ввиду, но вы поняли - это ассистент который доступен в любое время дня и ночи, если у вас есть деньги на балансе.

Давайте про деньги. Единицы кредитов называются в девине ACUs - это типа Agent Compute Units. Одна ACU стоит $2.25 на базовом тарифе. Минималка для пополнения - $20, уже серьезный стопор.

Как я потратил $500 за 10 дней на вайбкодинг AI редактора для видео c открытым исходным кодом

При этом диалог надо держать определенного размера. И когда диалог выходит за 5 ACU - лучше закругляться, работа станет менее эффективной и более долгой. Это как контекстное окно у GPT, только измеряется не токенами а деньгами.

К счастью девин умеет с этим помогать и всегда готов составить инструкцию для перехода в другой диалог. Типа он сам понимает когда пора остановиться, делает саммари что сделано и что надо дальше делать - просто копируешь и вставляешь в новую сессию.

Для продакта это важно понимать - делегировать можно, но надо следить. Даже если ты разработчик в отличие от меня. Просто смотришь что он делает в реальном времени через встроенную IDE, читаешь его мысли и планы. Иногда берешь управление на себя если видешь что он не туда поехал.

Возврат денег и другие фичи

Еще мне очень понравилась фишка девина в возврате денег. Я даже начал его немного абьюзить, честно говоря.

Когда дэвин делает что-то не правильно, вы его одергиваете, он извиняется и возвращает часть средств потраченных на этот диалог. И при некоторой сноровке этим даже можно злоупотреблять. Типа если видишь что он явно тупит или делает не то - можешь его остановить, написать что не так, и получить рефанд части ACU.

Как я потратил $500 за 10 дней на вайбкодинг AI редактора для видео c открытым исходным кодом

И я действительно обожаю эту функцию. Она не только позволяет снять негатив от неудачного использования, но и повышает лояльность к продукту. Когда ты видишь что деньги не просто улетают в никуда, а компания готова признать ошибку и вернуть средства - это другое дело.

Есть конечно и минусы. Это все больше похоже на тотализатор или слот машину, где то и дело выпадает кэшбек или удачный код - в качестве джекпота. То он сделал отлично с первого раза - джекпот! То накосячил, но вернул ACU - утешительный приз. Такая себе геймификация, которая, кажется, может вызывать зависимость.

В общей сложности так я получил обратно 70 ACU, а потратил на этот проект более 200.

Как я потратил $500 за 10 дней на вайбкодинг AI редактора для видео c открытым исходным кодом

Что еще крутого умеет девин? Ну кроме тестирований и деплоев он умеет смотреть интернет так же как вы через браузер. И даже сам вводит капчу и ищет документацию по апи.

Но это опять же не слишком эффективно, потому что чтобы водить мышкой по экрану он похоже использует js код. Типа он не просто кликает как человек, а вводит javascript команды в консоль браузера. Работает, но медленно и не всегда надежно.

Еще одна крутая фича - автоматическое составление Wiki по проекту, которой не только пользуется сам Девин, но вы можете с ней разговаривать. Например, чтобы узнать где находится какая-то функция.

Как я потратил $500 за 10 дней на вайбкодинг AI редактора для видео c открытым исходным кодом

Притом запросы к Wiki - бесплатные, вы можете заранее пообщаться с документацией, составить план действий, а потом закинуть его в Девина сэкономив немного токенов.

Что получилось

Теперь к конкретике - что реально получилось за эти 10 дней работы. Цифры из гита говорят сами за себя - 250 коммитов, 62 пулл реквеста влито.

Начинал я с простого - простые UI правки, интеграция новых AI моделей. Это прошло вообще без проблем, девин справлялся с первого раза. Радовался как дурак что все работает. Но работало не все, и на самом деле даже сейчас надо дотестировать, потому что некоторые схемы нуждаются в правке.

Потом делали ребрендинг проекта - меняли название везде с video-starter-kit на VideoSOS. Тут уже пришлось следить чтобы он не забыл поменять в конфигах, в метаданных, в UI. Но в целом ок.

А потом локализировали на русский язык и тут тоже не обошлось без проблем. На локализацю ушло аж 4 коммита - сначала добавили сам перевод, потом чинили роутинг для i18n, потом еще раз чинили потому что не все пути работали правильно. В общем повозились.

А вот дальше началось то самое интересное. Добавление экспорта аудио превратилось в настоящий квест. Девин пробовал разные подходы - то серверный экспорт, то клиентский через FFmpeg.wasm прямо в браузере.

Как я потратил $500 за 10 дней на вайбкодинг AI редактора для видео c открытым исходным кодом

И вот тут была целая эпопея - буквально 6-7 попыток с откатами. На каждом шаге что-то ломалось. То тишина вместо звука, то падает с ошибкой, то вообще не запускается. В один момент девин так накосячил что сломал вообще весь экспорт и пришлось делать полный откат назад к последней рабочей версии. Потом еще один откат. И только после этого наконец заработало через FFmpeg.wasm - щас работает, но были моменты когда я уже хотел все бросить.

Вот вам реальный пример когда простая фича превращается в многодневный баг-марафон.

Еще добавляли интеграцию с Runware.ai провайдером - это должно было дать доступ сразу к 108 моделям генерации. Сама интеграция прошла нормально, но потом девин еще раза три возвращался чтобы починить - то синхронные ответы от API неправильно обрабатывались, то SDK использовали не так, то параметры забыли добавить. Вот такие доработки по мелочи.

И под конец запилили portable Windows версию с bat файлами чтобы можно было запустить без установки ноды - тоже повозились прилично, раза три-четыре переделывали. То кириллица в батниках не работает, то скрипты папку .git не находят, то портабельную ноду неправильно детектят.

Работы еще много - нужно пофиксить баги, улучшить UX, добавить фич. Если вы тоже генерируете видео и хотите помочь с разработкой - буду рад, проект открытый.

Рекомендации

Вот список полезных рекомендаций из моего опыта. Кстати они скорее всего подойдут и для других код агентов тоже, не только для девина.

Как я потратил $500 за 10 дней на вайбкодинг AI редактора для видео c открытым исходным кодом

Первое и самое важное - формулируйте задачи максимально конкретно. Не “добавь экспорт аудио”, а “добавь кнопку экспорта аудио используя FFmpeg.wasm, посмотри как сделан экспорт видео в файле VideoExport.tsx”. Чем больше контекста и ссылок на существующий код - тем лучше результат. Да девин умеет искать в кодовой базе, но лучше сразу направить его куда надо.

Второе - не бойтесь остановить его если видите что поехал не туда. Лучше остановить на старте чем ждать когда он накосячит на пару ACU вперед. Я обычно пишу “стоп, откатываем, пробуем иначе” - и девин сам откатывает изменения и пробует другой подход. Это реально экономит кучу времени и денег.

Третье - следите за размером диалога. Когда ACU приближается к 5 - лучше завершить сессию и начать новую. Девин сам подскажет и составит инструкцию для следующей сессии, просто копируете и вставляете. Работа станет намного эффективнее, проверено.

Четвертое - готовьте базу контекста заранее. Приложите ссылки на документацию, а лучше сразу саму документацию в формате markdown. Конечно девин и сам все найдет и везде залезит, но это ваше время и деньги. Вам кликнуть куда быстрее и проще чем ему искать.

Еще по опыту - девин хорошо справляется с рефакторингом, миграциями, исправлением багов. Мелкие правки в UI, интеграции новых моделей - вообще без проблем. А вот с комплексными фичами типа того же экспорта аудио может быть геморой - придется несколько раз переделывать пока не заработает как надо.

И самое главное - вы не пассивный наблюдатель, а активный ревьюер кода. Отслеживайте его действия, читаете его планы, вмешиваетесь когда нужно. Иногда берете управление на себя чтобы показать как надо, потом возвращаете ему. Это как работать с джуном - нужен контроль, но не микроменеджмент.

А что в итоге остался ли я доволен этим экспериментом?

И да и нет.

С одной стороны первый аи агент который реально справляется с задачами хоть и не идеально. Доступен круглосуточно когда идея приспичит. Рефанд за косяки реально снимает негатив от неудач.

С другой стороны наверно дешевле было бы нанять обычного разработчика. Только вот разработчику нужно подробное ТЗ заранее, а с аи можно просто итерировать и экспериментировать на ходу добавляя что нужно.

А VideoSOS все еще далек от завершения, если вы генерируете видео - приглашаю контрибьютить: https://github.com/timoncool/videosos И конечно поддержите проект на Стартап Радаре.

Я рассказываю больше о нейросетях у себя на YouTube, в Телеграм и на Бусти. Всех обнял и удачных экспериментов.

4
Начать дискуссию