Мне сказали, что я изобретаю велосипед. В ответ я написал ИИ-Снайпера, который перехватывает IPTV и вырезает людей из прямого эфира
Один из комментаторов написал: "Зачем ты изобретаешь велосипед и сшиваешь модели? Проще и эффективнее было прикрутить к англоговорящей модели переводчик. Весь пост не читал".
Знаете, в IT есть золотое правило. Если тебе говорят, что ты делаешь фигню — не спорь. Просто напиши код, который физически невозможно сделать "простыми костылями".
Я отложил аниме в сторону и за пару часов на бесплатных серверах собрал «Кибер-Снайпера» — систему семантического поиска по живому телевизионному эфиру (Real-Time Zero-Shot Video Retrieval). Без всяких "переводчиков".
Как это работает под капотом (Магия вне Хогвартса)
Обычные люди ищут видео по тегам или названиям. Я заставил нейросеть искать видео по смыслу прямого эфира.
Пайплайн работает так:
- Перехват: Мой Python-скрипт стучится в открытый GitHub-плейлист IPTV (там тысячи каналов со всего мира). Скрипт игнорирует мертвые потоки, подключается к случайным работающим каналам и в реальном времени "выкусывает" ровно один текущий кадр из трансляции.
- Ищейка (OpenAI CLIP): В игру вступает мультимодальная нейросеть CLIP. Я пишу ей текстовый запрос: "A person looking at the camera". Она мгновенно просматривает все перехваченные кадры, сравнивает их векторы с моим текстом и находит канал, где прямо в эту секунду показывают нужного человека (например, немецкие новости).
- Скальпель (U-2-Net): Как только нужный кадр найден, в дело вступает нейросеть rembg. Она на лету вырезает найденный объект (человека, машину, кота) из студийного фона и отдает прозрачную картинку.
Всё это происходит за 30-100 секунд. Без подготовки данных. Без переобучения. ИИ буквально смотрит телевизор за вас.
Потрогать своими руками 🧪
Я развернул этого Франкенштейна на бесплатных серверах Hugging Face. Вы можете зайти и сами пограбить мировые телеканалы.
👉 Ссылка на перехватчик:https://huggingface.co/spaces/livadies/Cyber-Sniper-Live
Инструкция по взлому эфира:
- Заходите на сайт.
- Вводите в поле запрос строго на английском (ищейка англоязычная). Пишите что угодно: news anchor, a car, man in a hat, food.
- Жмете кнопку и ждете 50-100 секунд.
- ИИ пропылесосит десяток случайных каналов, найдет лучшее совпадение и вырежет объект.
Ахтунг: Сервера бесплатные, оперативки там мало. Если вы набежите толпой, скрипт может упасть с ошибкой 503 по тайм-ауту. Жмите кнопку еще раз, он проснется.Ну и не забывайте, что это живое ТВ. Если вы введете anime, а по телевизору сейчас идут только арабские новости и индийские сериалы — ИИ найдет вам самый мультяшный из индийских сериалов, так как ищет "лучшее из того, что есть в эфире прямо сейчас".
Если кто-то придумает, как сделать такой семантический сканер живого видео с помощью "простого переводчика по API" — жду вас в комментах, с удовольствием посмотрю ваш репозиторий. 😎
Всем чистого кода и поменьше костылей в проектах!