7000字超全拆解｜Sora提示词秘籍及竞品效果比拟_视频_提醒

文章目录 [+]

2024年2月16日凌晨，OpenAI 正式发布了文本到视频天生模型 Sora，直接天生60s视频，多角色多镜头切换的视频，还上了央视新闻。

目前 Sora 并未开放，只向少数导演艺术家开放约请码。

7000字超全拆解｜Sora提示词秘籍及竞品效果比拟_视频_提醒 7000字超全拆解｜Sora提示词秘籍及竞品效果比拟_视频_提醒通讯

至此，好莱坞的时期结束了，大家可以做视频电影的时期到来啦！

（图片来自网络侵删）

本日我们就 Sora 天生视频来拆解提示词秘籍公式，竞品视频天生效果比拟，解析 Sora 上风劣势和 Sora 模型事理。

一、AIGC 视频模型效果比拟

首先让我们看看，目前主流的AI 视频工具 Runway、Pika、Stable Video Diffusion 与 Sora 基本参数比拟。
包括发布韶光、特点风格、天生时长、每秒帧数和分辨率，如下图所示。

受制于AI文本到视频天生的物理和时空推理局限，目前主流的 AI 视频工具 Runway、Pika、Stable Video Diffusion 天生视频常日在4S旁边，单个连贯性视频的最大长度为16秒。
这次，Sora 最大天生长度为60s ，直接秒杀全场。

案例一

接下来，先来看一段 Sora 天生的视频效果吧，以下是提示词。

提示词：「几头巨大的长毛象踏着雪地走近，它们长长的长毛在风中轻轻地吹着，远处是白雪皑皑的树木和引人瞩目的雪山，午后的光芒与稀疏的云层和远处的太阳形成了温暖的光芒，低相机的视野令人惊叹，用俏丽的拍照和景深捕捉到了这只巨大的长毛哺乳动物。
」

天生的是一段9秒视频，我把全体视频进行了拆解：

可以看到，在0秒的时候画面上有两只完全的大象在行走，并且有一只被遮挡的大象在行走，0～5秒的时候这只大象被遮挡且连续提高行走，在第5秒时，这只大象开始显示出来，逐步走出来，身体很完全。

可以看出 Sora 在繁芜的场景、多角色表情以及镜头连贯性上表现的很突出。

Runway 和 Pika 比拟

接下来用相同提示词在 Runway 和 Pika 中看看效果吧。

可以看到在大象走路时背后雪飘扬物理天下的真实性上、大象身体运动地连贯性上、画脸庞杂性上，Sora 直接碾压其他两款视频软件天生效果。

案例X来源：https://twitter.com/keitowebai/status/1758384152670577136

案例二

提示词：「俏丽的、白雪皑皑的东京城熙熙攘攘。
镜头穿过熙熙攘攘的城市街道，跟随几个人享受俏丽的雪天，在附近的摊位上购物。
俏丽的樱花花瓣随着雪花在风中飞舞。
」

天生的是一段17秒视频，我把全体视频进行了拆解：

可以看到全体视频是一镜到底，高空跟随俯拍，在0～2秒镜头是动态地高空拉到人物，3秒开始两位主角进入，镜头随着主角的脚步向前，街道和店铺路面都符合逻辑的向前运动，且画面中物体都高度统一，第5秒我都担心女主会撞到前面的摊位，末了完美避让。
在第9秒两位主角还对在对视谈天，第3秒和第11秒周围的路人消逝的时候还是比较诡异的。

视频中的全体街道来的店铺完备没有变形，Sora 在繁芜的场景以及镜头连贯性上表现真的很突出。

Runway 、 Pika 、Stable Video 比拟

接下来，利用以上相同的关键词在 Pika、Runway、Stable Video 中进行了测试，可以看到以下效果。
Sora 在天生时长、画面连贯性和人物走路细节对视等方面也直接碾压。

案例X来源：https://twitter.com/gabor/status/1758282791547232482

二、Sore 上风与局限1. Sora 的上风

比拟 Runway、Pika、Stable Video 这些主流AI视频工具， Sora 的上风很明显：

能够天生具有多个角色、特定类型动作和主题背景的繁芜视频，时长可达到 60秒；

可以在单个天生的视频中创建多个镜头，仿照繁芜的摄像机运镜，同时准确地保持角色和视觉风格；

最主要的是，它不仅理解用户在 prompt 中哀求的内容，还能自己理解这些事物在现实天下中的存在办法；

🔗 更多技能：https://openai.com/sora

2. Sora 的劣势

Open AI 研究职员也提到 sora 仍存着一些缺陷，比如可能无法精确描述随着韶光推移发生的事宜。
例如“五只灰狼幼崽在一条偏僻的碎石路上玩耍”，小狼的数量会发生变革，玩耍的狼会涌现稠浊或消逝。

比如可能无法精确描述物理天下运动特色。
例如“篮球穿过篮筐然后爆炸”，篮球没有精确被篮筐阻挡。

三、Sore 提示词拆解

在拆解四十八个 Sora 视频案例后，我将提示词进行分类归纳，总结出提示词的五大维度包括：主体描述、场景设定、视觉细节、情绪氛围、拍照技能，这五大维度。

主体描述：涉及人物、动物或物体的详细描述，包括年事、服装、动作、表情、和与场景的互动。

场景设定：描述地点，如东京的街头、海底天下；韶光，如日落时分、蓝色时候；环境：如城市、自然景不雅观；特定的场景氛围：如温馨、神秘。

视觉细节：包括颜色、光影、景象条件、纹理和任何特殊的视觉效果，比如大象长长的毛、飞舞的樱花花瓣。

情绪氛围：描述场景所要传达的感情、情绪状态或氛围，利用视觉元素和场景设置加以强化，比如温暖的觉得、神奇浪漫的觉得。

拍照技能：特定的拍照或影片拍摄技能，如70mm胶片、无人机拍摄、倾斜移位。

1. 举例子

把提示词「几头巨大的长毛象踏着雪地走近，它们长长的长毛在风中轻轻地吹着，远处是白雪皑皑的树木和引人瞩目的雪山，午后的光芒与稀疏的云层和远处的太阳形成了温暖的光芒，低相机的视野令人惊叹，用俏丽的拍照和景深捕捉到了这只巨大的长毛哺乳动物。
」进行拆解如下：

主体描述：几头巨大的长毛象，在雪地中踏步，长毛在风中轻轻吹动。

场景设定：雪地，远处有被雪覆盖的树木和雪山，午后，有稀疏的云和远处的太阳

视觉细节：长毛在风中的轻轻吹动，光芒和云层形成温暖光芒。

情绪氛围：自然之美和壮不雅观

拍照技能：低相机视角，景深

2. 案例拆解

这边我把四个案例视频进行了详细的拆解，方便查看，可以看到视频每秒画质都很高清，画面物体都很完全符合逻辑。

案例一

提示词：Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

几头巨大的长毛象踏着雪地走近，它们长长的长毛在风中轻轻地吹着，远处是白雪皑皑的树木和引人瞩目的雪山，午后的光芒与稀疏的云层和远处的太阳形成了温暖的光芒，低相机的视野令人惊叹，用俏丽的拍照和景深捕捉到了这只巨大的长毛哺乳动物。

案例二

提示词：Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

俏丽的、白雪皑皑的东京城熙熙攘攘。
镜头穿过熙熙攘攘的城市街道，跟随几个人享受俏丽的雪天，在附近的摊位上购物。
俏丽的樱花花瓣随着雪花在风中飞舞。

案例三

提示词：A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

一位时尚的女士走在东京的街道上，街道上充满了温暖的霓虹灯和生动的城市标志。
她穿着玄色皮夹克、赤色长裙和玄色靴子，手里拿着一个玄色钱包。
她戴着太阳镜和赤色口红。
她走路自傲而随意。
街道湿润且反光，形成了彩色灯光的镜面效果。
许多行人走来走去。

案例四

提示词：Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic.

一位24岁女性的眼睛在马拉喀什的邪术时候进行极度特写镜头的眨眼，以70毫米的电影胶片拍摄，具有景深，鲜艳的颜色，电影般的效果。

3. Sora 秘籍公式

按照主体描述、场景设定、视觉细节、情绪氛围、拍照技能，这五大维度讲以上提示词进行分类可以得到如下提示词秘籍公式。

4. 小技巧：利用 AI工具快速得到上述表格

利用 ChatGPT 可以快速完成。
首先把四个案例的提示词文件放到输入框，输入指令「按照以上以下五个维度把上面4个案例进行拆解，并利用表格的形式展示出来。
」就可以得到如下表格啦。
大家可以利用 ChatGPT 对日常事情进行提效。

四、提示词大全

根据提示词五大维度，汇总了一些关键词如下。
后期我也会及时整理更多资料发布到AIGC知识库，欢迎加我微信理解更多，欢迎小伙伴加入一起学习。

主体描述（Subject Description）

职业（Occupation）：西席（Teacher）, 艺术家（Artist）；兴趣（Interests）：阅读（Reading）, 旅行（Traveling）；气质（Temperament）: 优雅（Elegant）, 粗犷（Rugged）；衣饰细节（Clothing Details）: 复古（Vintage）, 当代（Modern）。

场景设定（Scene Setting）

建筑风格（Architectural Style）: 当代（Modern）, 古典（Classical）；城市特色（City Characteristics）: 繁华（Bustling）, 古老（Ancient）；自然景不雅观（Natural Landscape）: 湖泊（Lakes）, 山脉（Mountains）；社会背景（Social Background）: 科技未来（Futuristic）, 史前时期（Prehistoric Era）。

视觉细节（Visual Details）

明暗比拟（Light and Dark Contrast）: 强烈（Strong）, 奇妙（Subtle）；视角（Perspective）: 第一人称（First Person）, 第三人称（Third Person）；光影变革（Light and Shadow Changes）: 日出（Sunrise），夜晚（Night）；空间感（Sense of Space）: 开阔（Open）, 压抑（Oppressive）。

情绪氛围（Emotional Atmosphere）

感情变革（Emotional Change）: 从忧郁到喜悦（From Melancholy to Joy）；故事情节（Plot）: 冒险（Adventure）, 发展（Growth）；人物关系（Character Relationships）: 交情（Friendship）, 竞争（Competition）；生理描写（Psychological Description）: 武断（Determined）, 犹豫（Hesitant）。

拍照技能（Photographic Techniques）

技能手段（Technical Means）: 蒙太奇（Montage）, 深焦点（Deep Focus）；拍照风格（Photographic Style）: 纪实（Documentary）, 抽象（Abstract）；画面处理（Image Processing）: 色彩饱和度（Color Saturation），明暗调度（Light and Dark Adjustment）；分外效果（Special Effects）: 慢动作（Slow Motion）, 倒叙（Reverse Chronology）；

五、Sore 模型事理

OpenAI 公布了sora详细的技能报告。

总的来说，Sora是一个在不同时长、分辨率和宽高比的视频及图像上演习而成的扩散模型，同时采取了Transformer架构，也便是一种“扩散型Transformer”。

🔗 技能报告链接：https://openai.com/research/video-generation-models-as-world-simulators

英伟达AI科学家Jim Fan则认为：Sora该当是一个数据驱动的物理引擎。
Sora是对现实或抱负天下的仿照，它通过一些去噪、梯度低落去学习繁芜渲染、“直觉”物理、长镜头推理和语义根本等。

纽约大学助理教授谢赛宁认为：Sora将改写全体视频天生领域。
Sora该当是建立在DiT这个扩散Transformer之上的。
简而言之，DiT是一个带有Transformer主干的扩散模型，它= [VAE 编码器 + ViT + DDPM + VAE 解码器]。

谢赛宁预测，关于视频压缩网络，Sora可能采取的便是VAE架构，差异便是经由原始视频数据演习。
而由于VAE是一个ConvNet，以是DiT从技能上来说是一个稠浊模型。

（1）视觉数据处理办法

Sora 创新性地采取“Patches（补片）”技能处理视觉数据，差异于大措辞模型的 token 处理办法。
通过将视频内容压缩到低维潜空间，进一步解构为时空补片，实现将视频转化为易于处理的补片形式。

（2）视频格式的灵巧性

Sora 能够天生多种格式的视频，支持不同的分辨率、时长和宽高比，优化了视频的构图和布局。
与常见的将视频裁剪为正方形不同，Sora 能够完全捕捉场景，得益于在视频的原始尺寸上进行演习。

（3）图像天生的能力