Официальное Руководство OpenAI по подсказкам и промтам в Sora 2

Официальное Руководство OpenAI по подсказкам и промтам в Sora 2

Как создать успешную видеоподсказку

Представьте, что вы даёте указания оператору, который никогда не видел вашу раскадровку. Если вы упустите детали, он будет импровизировать, и вы можете получить не то, что задумывали. Конкретизируя, чего должен достичь «кадр», вы даёте модели больше контроля и последовательности для работы.

Для тех кто не хочет разбираться и читать, вот универсальный промт который подойдет почти для любой задачи. Просто заполните нужные блоки.

[Описание сцены прозой простым языком. Опиши персонажей, костюмы, декорации, погоду и другие детали. Будь как можно более описательным, чтобы видео соответствовало твоему замыслу.] Кинематография: Кадр камеры: [композиция и угол съёмки, например: широкий план, уровень глаз] Настроение: [общий тон, например: кинематографично и напряжённо, игриво и тревожно, роскошное ожидание] Действия: - [Действие 1: чёткое, конкретное движение или жест] - [Действие 2: ещё один отдельный момент в клипе] - [Действие 3: другое действие или реплика] Диалоги: [Если в кадре есть диалог, добавь короткие естественные реплики здесь или в списке действий. Делай их короткими, чтобы они уместились в длину клипа.]

Также не забываем для тех кто в поиске инвайта, заходим к нам чекаем закреп или просим у ребят в чате.Invite (приглашения) постоянно обновляются, коды могу работать вновь спустя пару дней, чекаем закреп в чате, хватит на всех! 👇👇👇

Теперь для тех кто хочет разбираться и знать. Но если оставить некоторые детали открытыми, это может быть не менее эффективным. Предоставление модели большей творческой свободы может привести к удивительным вариациям и неожиданным, прекрасным интерпретациям. Оба подхода допустимы: подробные запросы обеспечивают контроль и единообразие, а более общие запросы открывают пространство для творческих результатов. Правильный баланс зависит от ваших целей и желаемого результата. Относитесь к запросу как к списку творческих пожеланий, а не как к договору. Как и в случае с ChatGPT, использование одного и того же запроса несколько раз приведет к разным результатам — это особенность, а не ошибка. Каждое поколение предлагает что-то новое, и иногда второй или третий вариант оказывается лучше первого.

Самое главное — будьте готовы к итерациям. Небольшие изменения в камере, освещении или действии могут кардинально повлиять на результат. Сотрудничайте с моделью: вы задаёте направление, а модель предлагает креативные варианты.

Это не точная наука — воспринимайте приведенные ниже рекомендации как полезные советы, которые мы получили в процессе работы с моделью.

Параметры API

Подсказка управляет содержимым видео, но некоторые атрибуты зависят только от параметров API. Их нельзя запросить в текстовом формате, они должны быть явно указаны в вызове API:

  • модель: sora-2 или sora-2-pro.
  • size: строка в формате {ширина}x{высота}. Поддерживаемые разрешения зависят от выбранной модели:
  • сора-21280x720, 720x1280sora-2-pro1280x720, 720x12801024x1792, 1792x1024
  • секунды: продолжительность клипа, поддерживаемые значения: «4», «8», «12». Значение по умолчанию: «4».

Эти параметры являются контейнером для видео: разрешение, продолжительность и качество не изменятся в зависимости от таких фраз, как «сделай его длиннее». Укажите их явно в вызове API; всё остальное (тема, движение, освещение, стиль) регулируется вашей подсказкой.

Разрешение видео

Разрешение видео напрямую влияет на качество изображения и плавность движений в Sora. При более высоком разрешении детализация, текстура и переходы освещения воспроизводятся более точно, в то время как при более низком разрешении визуальная информация сжимается, что часто приводит к размытости или появлению артефактов.

Длина видео

Как правило, модель лучше выполняет инструкции в коротких видеороликах. Для достижения наилучших результатов старайтесь снимать лаконичные кадры. Если позволяет ваш проект, вы можете добиться лучших результатов, смонтировав два 4-секундных ролика вместо одного 8-секундного.

Подскажите анатомию, которая работает

Четкая подсказка описывает кадр так, как если бы вы набрасывали его на раскадровке. Укажите кадрирование камеры, глубину резкости, опишите действие в разбивке на такты и настройте освещение и палитру. Если вы закрепите объект съемки несколькими характерными деталями, он будет узнаваем, а одно правдоподобное действие упростит восприятие кадра.

Если вам нужно снять последовательность кадров, можно описать несколько кадров в одном запросе. При этом каждый блок кадра должен быть отдельным: одна настройка камеры, одно действие объекта и один рецепт освещения за раз. Это позволит вам создавать как короткие отдельные клипы, так и более длинные непрерывные моменты в зависимости от вашего проекта. Относитесь к каждому кадру как к творческой единице. Вы можете либо смонтировать их вместе, либо снять последовательность кадров за один раз.

  • Более короткие запросы дают модели больше творческой свободы. Ожидайте неожиданных результатов.
  • Более длинные и подробные подсказки ограничивают творческий потенциал модели. Она будет стараться следовать вашим указаниям, но не всегда сможет делать это безошибочно.

Вот пример короткого запроса:

In a 90s documentary-style interview, an old Swedish man sits in a study and says, "I still remember when I was young."

Этот совет, скорее всего, вам поможет:

  • 90s documentary задаёт стиль видео. Модель будет выбирать такие параметры, как объектив камеры, освещение и цветокоррекция, в соответствии с заданными параметрами.
  • an old Swedish man sits in a study описывает объект и обстановку в общих чертах, позволяя модели проявить творческий подход в изображении человека и обстановки.
  • and says, "I still remember when I was young." описывает диалог. Сора, скорее всего, сможет в точности воспроизвести его.

Этот запрос позволит вам создавать видеоролики, соответствующие этим требованиям. Однако они могут не в полной мере соответствовать вашему видению, поскольку многие детали остаются открытыми. Например, запрос не описывает время суток, погоду, одежду, тон, внешний вид и возраст персонажа, ракурсы, монтаж, декорации и многие другие факторы. Если вы не укажете эти детали, Сора придумает их сама.

Становится Сверхдетализированным

Для сложных кинематографических кадров вы можете выйти за рамки стандартной структуры запроса и указать внешний вид, настройку камеры, цветокоррекцию, звуковое сопровождение и даже обоснование кадра с точки зрения профессионального производства. Это похоже на то, как режиссёр даёт указания съёмочной группе или команде по визуальным эффектам. Подробные указания по выбору объектива, фильтрации, освещению, цветокоррекции и движению помогают модели сосредоточиться на конкретной эстетике.

Например, вы можете описать то, что зритель замечает в первую очередь, платформу и объектив камеры, направление освещения, цветовую палитру, качество текстур, звуковое сопровождение и время съёмки. Такой подход хорошо работает, когда вы хотите воссоздать реальные стили съёмки (например, аэрофотосъёмку в формате IMAX, 35-миллиметровую ручную съёмку, винтажную 16-миллиметровую документальную съёмку) или сохранить строгую последовательность кадров.

Пример

Format & Look Duration 4s; 180° shutter; digital capture emulating 65 mm photochemical contrast; fine grain; subtle halation on speculars; no gate weave. Lenses & Filtration 32 mm / 50 mm spherical primes; Black Pro-Mist 1/4; slight CPL rotation to manage glass reflections on train windows. Grade / Palette Highlights: clean morning sunlight with amber lift. Mids: balanced neutrals with slight teal cast in shadows. Blacks: soft, neutral with mild lift for haze retention. Lighting & Atmosphere Natural sunlight from camera left, low angle (07:30 AM). Bounce: 4×4 ultrabounce silver from trackside. Negative fill from opposite wall. Practical: sodium platform lights on dim fade. Atmos: gentle mist; train exhaust drift through light beam. Location & Framing Urban commuter platform, dawn. Foreground: yellow safety line, coffee cup on bench. Midground: waiting passengers silhouetted in haze. Background: arriving train braking to a stop. Avoid signage or corporate branding. Wardrobe / Props / Extras Main subject: mid-30s traveler, navy coat, backpack slung on one shoulder, holding phone loosely at side. Extras: commuters in muted tones; one cyclist pushing bike. Props: paper coffee cup, rolling luggage, LED departure board (generic destinations). Sound Diegetic only: faint rail screech, train brakes hiss, distant announcement muffled (-20 LUFS), low ambient hum. Footsteps and paper rustle; no score or added foley. Optimized Shot List (2 shots / 4 s total) 0.00–2.40 — “Arrival Drift” (32 mm, shoulder-mounted slow dolly left) Camera slides past platform signage edge; shallow focus reveals traveler mid-frame looking down tracks. Morning light blooms across lens; train headlights flare softly through mist. Purpose: establish setting and tone, hint anticipation. 2.40–4.00 — “Turn and Pause” (50 mm, slow arc in) Cut to tighter over-shoulder arc as train halts; traveler turns slightly toward camera, catching sunlight rim across cheek and phone screen reflection. Eyes flick up toward something unseen. Purpose: create human focal moment with minimal motion. Camera Notes (Why It Reads) Keep eyeline low and close to lens axis for intimacy. Allow micro flares from train glass as aesthetic texture. Preserve subtle handheld imperfection for realism. Do not break silhouette clarity with overexposed flare; retain skin highlight roll-off. Finishing Fine-grain overlay with mild chroma noise for realism; restrained halation on practicals; warm-cool LUT for morning split tone. Mix: prioritize train and ambient detail over footstep transients. Poster frame: traveler mid-turn, golden rim light, arriving train soft-focus in background haze.

Визуальные подсказки, направляющие взгляд

При составлении подсказок стиль — один из самых мощных инструментов для управления моделью в направлении желаемого результата. Описание общей эстетики — например, «фильм 1970-х», «эпическая сцена в формате IMAX», или «16-миллиметровая чёрно-белая плёнка» — задаёт визуальный тон, который определяет все остальные варианты. Определите этот стиль заранее, чтобы модель могла последовательно его придерживаться.

Одни и те же детали будут восприниматься совершенно по-разному в зависимости от того, что вы хотите снять: отполированную голливудскую драму, короткий ролик на смартфоне или зернистую винтажную рекламу. Определившись с тоном, добавьте детали с помощью кадра, действия и света.

Ясность побеждает. Вместо расплывчатых описаний вроде «красивая улица» напишите «мокрый асфальт, пешеходный переход, отражение неоновой вывески». Вместо «быстро передвигается» уточните «пробегает три шага и останавливается у бордюра». Глаголы и существительные, указывающие на видимый результат, всегда дают более ясный и последовательный результат.

Официальное Руководство OpenAI по подсказкам и промтам в Sora 2

Направление камеры и форма кадра определяют восприятие снимка. Общий план сверху подчеркнет пространство и контекст, а крупный план на уровне глаз привлечет внимание к эмоциям. Глубина резкости добавляет еще один уровень: при малой глубине резкости объект выделяется на размытом фоне, а при большой глубине резкости четкими остаются и передний, и задний план. Освещение не менее важно. Мягкий, теплый свет создает располагающую атмосферу, а один яркий источник света с холодными тенями придает драматизма.

При представлении персонажей будьте готовы к некоторой непредсказуемости: небольшие изменения в формулировках могут повлиять на личность, позу или фокус самой сцены. Старайтесь, чтобы описания в разных кадрах были одинаковыми, используйте одни и те же формулировки для связности повествования и избегайте смешения характеристик, которые могут противоречить друг другу.

Слабый

Camera shot: cinematic look

Сильный

Camera shot: wide shot, low angleDepth of field: shallow (sharp on subject, blurred background)Lighting + palette: warm backlight with soft rim

Несколько примеров хороших инструкций по обрамлению:

  • Общий план, уровень глаз
  • Общий план, движение камеры слева направо
  • общий план с воздуха, небольшой наклон вниз
  • средний план, слегка сзади

Несколько примеров хороших инструкций по управлению камерой:

  • медленно наклоняющаяся камера
  • портативная английская камера

Контролируйте движение и хронометраж

Сложнее всего правильно передать движение, поэтому не усложняйте. В каждом кадре должно быть одно чёткое движение камеры и одно чёткое действие объекта съёмки. Действия лучше всего описывать в ритме или на счёт — небольшими шагами, жестами или паузами, — чтобы они ощущались как часть времени.

«Актёр проходит через комнату» — не самый удачный вариант. Такая фраза, как «Актёр делает четыре шага к окну, останавливается и в последнюю секунду отдёргивает занавеску», позволяет точно рассчитать время и сделать всё возможное.

Слабый

Actor walks across the room.

Сильный

Actor takes four steps to the window, pauses, and pulls the curtain in the final second.

Освещение и цветовая консистенция

Свет определяет настроение не меньше, чем действие или обстановка. Рассеянный свет в кадре выглядит спокойно и нейтрально, в то время как один мощный источник света создаёт резкий контраст и напряжение. Если вы хотите склеить несколько клипов, важно сохранить единообразие в освещении, чтобы монтаж был плавным.

Опишите как качество света, так и цветовые акценты, которые его усиливают. Вместо общей фразы вроде «ярко освещённая комната» укажите сочетание источников и тонов: «мягкий свет из окна с тёплым светом от лампы и холодным светом из коридора». Указание трёх-пяти цветов помогает сохранить палитру неизменной на протяжении всего кадра.

Слабый

Lighting + palette: brightly lit room

Сильный

Lighting + palette: soft window light with warm lamp fill, cool rim from hallway Palette anchors: amber, cream, walnut brown

Используйте ввод изображения для большего контроля

Для ещё более детальной проработки композиции и стиля кадра вы можете использовать вводное изображение в качестве визуального ориентира. Вы можете использовать фотографии, цифровые изображения или визуальные эффекты, созданные искусственным интеллектом. Это позволяет зафиксировать такие элементы, как дизайн персонажа, гардероб, декорации или общая эстетика. Модель использует изображение в качестве привязки для первого кадра, а ваша текстовая подсказка определяет, что произойдёт дальше.

Как им пользоваться

Укажите файл изображения в качестве параметра input_reference в запросе POST /videos.

  • Изображение должно соответствовать разрешению (размеру) целевого видео.
  • Поддерживаемые форматы файлов: image/jpeg, image/png, image/webp.

Входное изображение, созданное с помощью OpenAI GPT Image

Сгенерированное видео с помощью Sora 2 (преобразовано в GIF)

Официальное Руководство OpenAI по подсказкам и промтам в Sora 2

Подсказка: «Она оборачивается и улыбается, а затем медленно выходит из кадра».

Официальное Руководство OpenAI по подсказкам и промтам в Sora 2

Подсказка: «Открывается дверца холодильника. Из него вылезает милый пухлый фиолетовый монстр».

Совет по экспериментам

Если у вас ещё нет визуальных референсов, модель генерации изображений OpenAI — отличный способ их создать. Вы можете быстро сгенерировать окружение и дизайн сцен, а затем передать их в Sora в качестве референсов. Это отличный способ проверить эстетику и создать красивые отправные точки для ваших видео.

Диалог и Аудио

Диалог должен быть описан непосредственно в вашем запросе. Поместите его в блок под прозаическим описанием, чтобы модель чётко отличала визуальное описание от реплик. Старайтесь, чтобы реплики были краткими и естественными, и ограничьтесь несколькими предложениями, чтобы синхронизация соответствовала длине вашего ролика. В сценах с несколькими персонажами последовательно указывайте говорящих и чередуйте реплики; это поможет модели связать каждую реплику с жестами и мимикой нужного персонажа.

Вам также следует подумать о ритме и тайминге: в 4-секундном ролике обычно помещается один или два коротких диалога, а в 8-секундном — несколько больше. Длинные и сложные речи вряд ли будут хорошо синхронизированы и могут нарушить темп.

Если в вашем ролике нет звука, вы всё равно можете задать темп с помощью одного небольшого звука, например «далёкого шума машин» или «хруста». Думайте об этом как о ритмической подсказке, а не как о полноценном саундтреке.

Пример приглашения с диалогом:

A cramped, windowless room with walls the color of old ash. A single bare bulb dangles from the ceiling, its light pooling onto the scarred metal table at the center. Two chairs face each other across it. On one side sits the Detective, trench coat draped across the back of his chair, eyes sharp and unblinking. Across from him, the Suspect slouches, cigarette smoke curling lazily toward the ceiling. The silence presses in, broken only by the faint hum of the overhead light.Dialogue:- Detective: "You’re lying. I can hear it in your silence."- Suspect: "Or maybe I’m just tired of talking."- Detective: "Either way, you’ll talk before the night’s over."

Пример описания фонового звука:

The hum of espresso machines and the murmur of voices form the background.

Используйте функцию ремикширования

Ремикс нужен для подталкивания, а не для азартных игр. Используйте его, чтобы вносить контролируемые изменения — по одному за раз — и указывать, что именно вы меняете: «тот же кадр, переключиться на 85 мм» или «то же освещение, новая палитра: бирюзовый, песочный, ржавый». Когда результат будет близок к нужному, закрепите его в качестве эталона и опишите только изменения. Таким образом, всё, что уже работает, останется неизменным.

Если кадр не получается, упростите его: зафиксируйте камеру, упростите действие, уберите фон. Как только всё заработает, постепенно добавляйте сложности.

Оригинальное Видео

Сгенерированное Ремиксом Видео

Оригинальное Видео

Подсказка: «Измените цвет монстра на оранжевый»

Оригинальное Видео

Подсказка: «Сразу после этого появляется второй монстр»

Шаблоны подсказок и примеры

Оперативная структура

Один из эффективных способов составления подсказок — разделение информации на разные типы, которые модель должна использовать. Это не универсальный рецепт успеха, но он даёт чёткое представление о том, что нужно делать, и упрощает процесс. Необязательно включать все детали — если что-то не имеет отношения к снимку, это можно не указывать.

На самом деле если оставить некоторые элементы открытыми, это подтолкнёт модель к более творческому подходу. Чем меньше вы конкретизируете каждый визуальный элемент, тем больше у модели возможностей интерпретировать данные и удивлять вас неожиданными, но зачастую прекрасными вариациями. Подробные описания дают более стабильные и контролируемые результаты, в то время как более общие описания могут привести к разнообразным результатам, которые будут свежими и оригинальными. Шаблон описательного запроса:

[Prose scene description in plain language. Describe characters, costumes, scenery, weather and other details. Be as descriptive to generate a video that matches your vision.]Cinematography:Camera shot: [framing and angle, e.g. wide establishing shot, eye level]Mood: [overall tone, e.g. cinematic and tense, playful and suspenseful, luxurious anticipation]Actions:- [Action 1: a clear, specific beat or gesture]- [Action 2: another distinct beat within the clip]- [Action 3: another action or dialogue line]Dialogue:[If the shot has dialogue, add short natural lines here or as part of the actions list. Keep them brief so they match the clip length.]

Подскажите Примеры

Пример 1

Style: Hand-painted 2D/3D hybrid animation with soft brush textures, warm tungsten lighting, and a tactile, stop-motion feel. The aesthetic evokes mid-2000s storybook animation — cozy, imperfect, full of mechanical charm. Subtle watercolor wash and painterly textures; warm–cool balance in grade; filmic motion blur for animated realism.Inside a cluttered workshop, shelves overflow with gears, bolts, and yellowing blueprints. At the center, a small round robot sits on a wooden bench, its dented body patched with mismatched plates and old paint layers. Its large glowing eyes flicker pale blue as it fiddles nervously with a humming light bulb. The air hums with quiet mechanical whirs, rain patters on the window, and the clock ticks steadily in the background.Cinematography:Camera: medium close-up, slow push-in with gentle parallax from hanging toolsLens: 35 mm virtual lens; shallow depth of field to soften background clutterLighting: warm key from overhead practical; cool spill from window for contrastMood: gentle, whimsical, a touch of suspenseActions:- The robot taps the bulb; sparks crackle.- It flinches, dropping the bulb, eyes widening.- The bulb tumbles in slow motion; it catches it just in time.- A puff of steam escapes its chest — relief and pride.- Robot says quietly: "Almost lost it… but I got it!"Background Sound:Rain, ticking clock, soft mechanical hum, faint bulb sizzle.

Пример 2

Style: 1970s romantic drama, shot on 35 mm film with natural flares, soft focus, and warm halatio
2 комментария