Официальное Руководство OpenAI по подсказкам и промтам в Sora 2
Как создать успешную видеоподсказку
Представьте, что вы даёте указания оператору, который никогда не видел вашу раскадровку. Если вы упустите детали, он будет импровизировать, и вы можете получить не то, что задумывали. Конкретизируя, чего должен достичь «кадр», вы даёте модели больше контроля и последовательности для работы.
Для тех кто не хочет разбираться и читать, вот универсальный промт который подойдет почти для любой задачи. Просто заполните нужные блоки.
Также не забываем для тех кто в поиске инвайта, заходим к нам чекаем закреп или просим у ребят в чате.Invite (приглашения) постоянно обновляются, коды могу работать вновь спустя пару дней, чекаем закреп в чате, хватит на всех! 👇👇👇
Теперь для тех кто хочет разбираться и знать. Но если оставить некоторые детали открытыми, это может быть не менее эффективным. Предоставление модели большей творческой свободы может привести к удивительным вариациям и неожиданным, прекрасным интерпретациям. Оба подхода допустимы: подробные запросы обеспечивают контроль и единообразие, а более общие запросы открывают пространство для творческих результатов. Правильный баланс зависит от ваших целей и желаемого результата. Относитесь к запросу как к списку творческих пожеланий, а не как к договору. Как и в случае с ChatGPT, использование одного и того же запроса несколько раз приведет к разным результатам — это особенность, а не ошибка. Каждое поколение предлагает что-то новое, и иногда второй или третий вариант оказывается лучше первого.
Самое главное — будьте готовы к итерациям. Небольшие изменения в камере, освещении или действии могут кардинально повлиять на результат. Сотрудничайте с моделью: вы задаёте направление, а модель предлагает креативные варианты.
Это не точная наука — воспринимайте приведенные ниже рекомендации как полезные советы, которые мы получили в процессе работы с моделью.
Параметры API
Подсказка управляет содержимым видео, но некоторые атрибуты зависят только от параметров API. Их нельзя запросить в текстовом формате, они должны быть явно указаны в вызове API:
- модель: sora-2 или sora-2-pro.
- size: строка в формате {ширина}x{высота}. Поддерживаемые разрешения зависят от выбранной модели:
- сора-21280x720, 720x1280sora-2-pro1280x720, 720x12801024x1792, 1792x1024
- секунды: продолжительность клипа, поддерживаемые значения: «4», «8», «12». Значение по умолчанию: «4».
Эти параметры являются контейнером для видео: разрешение, продолжительность и качество не изменятся в зависимости от таких фраз, как «сделай его длиннее». Укажите их явно в вызове API; всё остальное (тема, движение, освещение, стиль) регулируется вашей подсказкой.
Разрешение видео
Разрешение видео напрямую влияет на качество изображения и плавность движений в Sora. При более высоком разрешении детализация, текстура и переходы освещения воспроизводятся более точно, в то время как при более низком разрешении визуальная информация сжимается, что часто приводит к размытости или появлению артефактов.
Длина видео
Как правило, модель лучше выполняет инструкции в коротких видеороликах. Для достижения наилучших результатов старайтесь снимать лаконичные кадры. Если позволяет ваш проект, вы можете добиться лучших результатов, смонтировав два 4-секундных ролика вместо одного 8-секундного.
Подскажите анатомию, которая работает
Четкая подсказка описывает кадр так, как если бы вы набрасывали его на раскадровке. Укажите кадрирование камеры, глубину резкости, опишите действие в разбивке на такты и настройте освещение и палитру. Если вы закрепите объект съемки несколькими характерными деталями, он будет узнаваем, а одно правдоподобное действие упростит восприятие кадра.
Если вам нужно снять последовательность кадров, можно описать несколько кадров в одном запросе. При этом каждый блок кадра должен быть отдельным: одна настройка камеры, одно действие объекта и один рецепт освещения за раз. Это позволит вам создавать как короткие отдельные клипы, так и более длинные непрерывные моменты в зависимости от вашего проекта. Относитесь к каждому кадру как к творческой единице. Вы можете либо смонтировать их вместе, либо снять последовательность кадров за один раз.
- Более короткие запросы дают модели больше творческой свободы. Ожидайте неожиданных результатов.
- Более длинные и подробные подсказки ограничивают творческий потенциал модели. Она будет стараться следовать вашим указаниям, но не всегда сможет делать это безошибочно.
Вот пример короткого запроса:
Этот совет, скорее всего, вам поможет:
- 90s documentary задаёт стиль видео. Модель будет выбирать такие параметры, как объектив камеры, освещение и цветокоррекция, в соответствии с заданными параметрами.
- an old Swedish man sits in a study описывает объект и обстановку в общих чертах, позволяя модели проявить творческий подход в изображении человека и обстановки.
- and says, "I still remember when I was young." описывает диалог. Сора, скорее всего, сможет в точности воспроизвести его.
Этот запрос позволит вам создавать видеоролики, соответствующие этим требованиям. Однако они могут не в полной мере соответствовать вашему видению, поскольку многие детали остаются открытыми. Например, запрос не описывает время суток, погоду, одежду, тон, внешний вид и возраст персонажа, ракурсы, монтаж, декорации и многие другие факторы. Если вы не укажете эти детали, Сора придумает их сама.
Становится Сверхдетализированным
Для сложных кинематографических кадров вы можете выйти за рамки стандартной структуры запроса и указать внешний вид, настройку камеры, цветокоррекцию, звуковое сопровождение и даже обоснование кадра с точки зрения профессионального производства. Это похоже на то, как режиссёр даёт указания съёмочной группе или команде по визуальным эффектам. Подробные указания по выбору объектива, фильтрации, освещению, цветокоррекции и движению помогают модели сосредоточиться на конкретной эстетике.
Например, вы можете описать то, что зритель замечает в первую очередь, платформу и объектив камеры, направление освещения, цветовую палитру, качество текстур, звуковое сопровождение и время съёмки. Такой подход хорошо работает, когда вы хотите воссоздать реальные стили съёмки (например, аэрофотосъёмку в формате IMAX, 35-миллиметровую ручную съёмку, винтажную 16-миллиметровую документальную съёмку) или сохранить строгую последовательность кадров.
Пример
Визуальные подсказки, направляющие взгляд
При составлении подсказок стиль — один из самых мощных инструментов для управления моделью в направлении желаемого результата. Описание общей эстетики — например, «фильм 1970-х», «эпическая сцена в формате IMAX», или «16-миллиметровая чёрно-белая плёнка» — задаёт визуальный тон, который определяет все остальные варианты. Определите этот стиль заранее, чтобы модель могла последовательно его придерживаться.
Одни и те же детали будут восприниматься совершенно по-разному в зависимости от того, что вы хотите снять: отполированную голливудскую драму, короткий ролик на смартфоне или зернистую винтажную рекламу. Определившись с тоном, добавьте детали с помощью кадра, действия и света.
Ясность побеждает. Вместо расплывчатых описаний вроде «красивая улица» напишите «мокрый асфальт, пешеходный переход, отражение неоновой вывески». Вместо «быстро передвигается» уточните «пробегает три шага и останавливается у бордюра». Глаголы и существительные, указывающие на видимый результат, всегда дают более ясный и последовательный результат.
Направление камеры и форма кадра определяют восприятие снимка. Общий план сверху подчеркнет пространство и контекст, а крупный план на уровне глаз привлечет внимание к эмоциям. Глубина резкости добавляет еще один уровень: при малой глубине резкости объект выделяется на размытом фоне, а при большой глубине резкости четкими остаются и передний, и задний план. Освещение не менее важно. Мягкий, теплый свет создает располагающую атмосферу, а один яркий источник света с холодными тенями придает драматизма.
При представлении персонажей будьте готовы к некоторой непредсказуемости: небольшие изменения в формулировках могут повлиять на личность, позу или фокус самой сцены. Старайтесь, чтобы описания в разных кадрах были одинаковыми, используйте одни и те же формулировки для связности повествования и избегайте смешения характеристик, которые могут противоречить друг другу.
Слабый
Сильный
Несколько примеров хороших инструкций по обрамлению:
- Общий план, уровень глаз
- Общий план, движение камеры слева направо
- общий план с воздуха, небольшой наклон вниз
- средний план, слегка сзади
Несколько примеров хороших инструкций по управлению камерой:
- медленно наклоняющаяся камера
- портативная английская камера
Контролируйте движение и хронометраж
Сложнее всего правильно передать движение, поэтому не усложняйте. В каждом кадре должно быть одно чёткое движение камеры и одно чёткое действие объекта съёмки. Действия лучше всего описывать в ритме или на счёт — небольшими шагами, жестами или паузами, — чтобы они ощущались как часть времени.
«Актёр проходит через комнату» — не самый удачный вариант. Такая фраза, как «Актёр делает четыре шага к окну, останавливается и в последнюю секунду отдёргивает занавеску», позволяет точно рассчитать время и сделать всё возможное.
Слабый
Сильный
Освещение и цветовая консистенция
Свет определяет настроение не меньше, чем действие или обстановка. Рассеянный свет в кадре выглядит спокойно и нейтрально, в то время как один мощный источник света создаёт резкий контраст и напряжение. Если вы хотите склеить несколько клипов, важно сохранить единообразие в освещении, чтобы монтаж был плавным.
Опишите как качество света, так и цветовые акценты, которые его усиливают. Вместо общей фразы вроде «ярко освещённая комната» укажите сочетание источников и тонов: «мягкий свет из окна с тёплым светом от лампы и холодным светом из коридора». Указание трёх-пяти цветов помогает сохранить палитру неизменной на протяжении всего кадра.
Слабый
Сильный
Используйте ввод изображения для большего контроля
Для ещё более детальной проработки композиции и стиля кадра вы можете использовать вводное изображение в качестве визуального ориентира. Вы можете использовать фотографии, цифровые изображения или визуальные эффекты, созданные искусственным интеллектом. Это позволяет зафиксировать такие элементы, как дизайн персонажа, гардероб, декорации или общая эстетика. Модель использует изображение в качестве привязки для первого кадра, а ваша текстовая подсказка определяет, что произойдёт дальше.
Как им пользоваться
Укажите файл изображения в качестве параметра input_reference в запросе POST /videos.
- Изображение должно соответствовать разрешению (размеру) целевого видео.
- Поддерживаемые форматы файлов: image/jpeg, image/png, image/webp.
Входное изображение, созданное с помощью OpenAI GPT Image
Сгенерированное видео с помощью Sora 2 (преобразовано в GIF)
Подсказка: «Она оборачивается и улыбается, а затем медленно выходит из кадра».
Подсказка: «Открывается дверца холодильника. Из него вылезает милый пухлый фиолетовый монстр».
Совет по экспериментам
Если у вас ещё нет визуальных референсов, модель генерации изображений OpenAI — отличный способ их создать. Вы можете быстро сгенерировать окружение и дизайн сцен, а затем передать их в Sora в качестве референсов. Это отличный способ проверить эстетику и создать красивые отправные точки для ваших видео.
Диалог и Аудио
Диалог должен быть описан непосредственно в вашем запросе. Поместите его в блок под прозаическим описанием, чтобы модель чётко отличала визуальное описание от реплик. Старайтесь, чтобы реплики были краткими и естественными, и ограничьтесь несколькими предложениями, чтобы синхронизация соответствовала длине вашего ролика. В сценах с несколькими персонажами последовательно указывайте говорящих и чередуйте реплики; это поможет модели связать каждую реплику с жестами и мимикой нужного персонажа.
Вам также следует подумать о ритме и тайминге: в 4-секундном ролике обычно помещается один или два коротких диалога, а в 8-секундном — несколько больше. Длинные и сложные речи вряд ли будут хорошо синхронизированы и могут нарушить темп.
Если в вашем ролике нет звука, вы всё равно можете задать темп с помощью одного небольшого звука, например «далёкого шума машин» или «хруста». Думайте об этом как о ритмической подсказке, а не как о полноценном саундтреке.
Пример приглашения с диалогом:
Пример описания фонового звука:
Используйте функцию ремикширования
Ремикс нужен для подталкивания, а не для азартных игр. Используйте его, чтобы вносить контролируемые изменения — по одному за раз — и указывать, что именно вы меняете: «тот же кадр, переключиться на 85 мм» или «то же освещение, новая палитра: бирюзовый, песочный, ржавый». Когда результат будет близок к нужному, закрепите его в качестве эталона и опишите только изменения. Таким образом, всё, что уже работает, останется неизменным.
Если кадр не получается, упростите его: зафиксируйте камеру, упростите действие, уберите фон. Как только всё заработает, постепенно добавляйте сложности.
Оригинальное Видео
Сгенерированное Ремиксом Видео
Оригинальное Видео
Подсказка: «Измените цвет монстра на оранжевый»
Оригинальное Видео
Подсказка: «Сразу после этого появляется второй монстр»
Шаблоны подсказок и примеры
Оперативная структура
Один из эффективных способов составления подсказок — разделение информации на разные типы, которые модель должна использовать. Это не универсальный рецепт успеха, но он даёт чёткое представление о том, что нужно делать, и упрощает процесс. Необязательно включать все детали — если что-то не имеет отношения к снимку, это можно не указывать.
На самом деле если оставить некоторые элементы открытыми, это подтолкнёт модель к более творческому подходу. Чем меньше вы конкретизируете каждый визуальный элемент, тем больше у модели возможностей интерпретировать данные и удивлять вас неожиданными, но зачастую прекрасными вариациями. Подробные описания дают более стабильные и контролируемые результаты, в то время как более общие описания могут привести к разнообразным результатам, которые будут свежими и оригинальными. Шаблон описательного запроса: