openAI正式推出Sora视频大模型

寂静回声 · 发表于 2024-12-11 14:08:20

就在刚刚，OpenAI Sora正式登场。
本次发布会延续了“短剧”的快节奏风格，全程20分钟左右，由 CEO Sam Altman、Sora负责人 Bill Peebles等人主持。
OpenAI在 X平台表示，自2月份以来，他们一直在构建 Sora Turbo，后者是一个速度明显更快的模型版本，今天也将其作为独立产品向 Plus和 Pro用户开放。
有趣的是，由于 Sora热度太高，大批用户涌入体验网站，导致该网站一度崩溃，停止注册登录。不给力的服务也让 Altman连连在 X平台安抚用户：
“由于需求超出预期，我们将不得不间歇性地关闭新用户注册，并且生成内容的速度会在一段时间内减慢。我们正在全力以赴！”

类似于 Midjourney（AI绘画工具）的网页界面，Sora同样拥有自己单独的用户界面，用户不仅能够整理和浏览生成的视频，还能查看其他用户的提示词和精选视频。
在“Library”中，用户可以保存自己喜欢或有用的提示词，以便未来使用。并且保存的提示词可以按需查看或修改，对于需要重复创作相似内容的用户，无疑能大大提高效率。
在工作流方面，Sora的编辑功能是区别于其它竞品的重要亮点。
比如说，在 Remix功能中，用户可以利用纯自然语言提示词对视频进行编辑，并通过简单的“strength（强度）”选项和滑块来控制生成的变化程度。
Re-cut功能则能智能识别最佳画面，并支持向任意方向延伸场景。
Storyboard（故事板）功能则类似于视频编辑器，可以将多个提示词串联在一起，生成一个更长的视频，轻松处理复杂的多步骤场景。
搭配 Loop和 Blend功能，用户还能创作出无缝循环的视频，并完美融合不同片段，而 Style presets功能则可以预设和调整生成的风格。
在技术规格上，Sora支持5-20秒的视频生成，并兼容1:1、9:16等主流宽高比。相比早期版本，现在的生成速度有了显著提升。

另外，还有几点细节需要注意。
Sora Turbo采用了灵活的积分制定价策略，需要耗费的积分因分辨率和持续时间而异，如果你已经是 ChatGPT Plus和 Pro会员，那无需额外费用就能使用。
比如生成一个480p、5s的视频就需要25个积分，如果生成480p、20s的视频则需要150个积分。
此外，如果你用 Re-cut、Remix、Blend或者 Loop这些功能，生成的作品超过了5秒钟，那也得额外扣你的积分，多用多花钱，别超时，超时也花钱。
对于订阅用户而言，20美元的 ChatGPT Plus计划提供50个优先视频额度（1000积分），支持最高720p分辨率和5秒时长。
而200美元的 ChatGPT Pro计划则提供最多500个优先视频（10000个积分），支持最高1080p分辨率、20秒时长、5个并发生成和无水印输出。
OpenAI还在考虑为不同类型的用户开发不同的定价模式，将于明年初推出。
对了，Sora暂不支持 ChatGPT Team、Enterprise和 Edu用户，同时也不向18岁以下用户开放。
现阶段，用户可以在所有 ChatGPT可用的地方访问 Sora，但英国、瑞士和欧盟等地区除外。

知名博主 Marques Brownlee提前一周用上 Sora，并在 YouTube上分享了他的使用体验。
他指出这款产品仍存在一些局限性。
在物理仿真方面，模型对物体运动的理解还不够深入，常常出现动作不自然、物体突然消失等问题。特别是在处理带有腿部运动的对象时，经常出现前后腿位置混乱的情况，导致动作看起来不自然。
又或者，某些视频生成结果看起来像是慢动作，而视频的其他部分则以正常速度播放，肉眼很容易察觉这种“别扭”。简言之，Sora还是没能解决老毛病，缺乏对物理世界规律的理解。
另外，Sora没能解决文字生成的问题，导致经常出现文字混乱的现象，而剪辑风格、文字滚动条的运动、新闻主播风格的生成则格外逼真。

不过，Sora也有许多拿捏的场景。
比如说，Sora在风景镜头处理方面表现出色，能生成媲美专业素材的无人机航拍镜头，在卡通和定格动画风格上的表现也差强人意。
性能方面，一个5秒的360p视频通常能在20秒内完成生成。不过，当涉及1080p或复杂提示词时，生成时间可能会延长到几分钟，但随着如今大批用户的涌入，生成速度也大为缓慢。
不少网友也在第一时间上手体验了 Sora。比如网友@bennash想生成一个视频，渲染了22分钟都没能成功，甚至该网站一度停止注册登录。
博主@nickfloats给出的评价是，Sora在将图像转换成视频时，虽然某些特定的视觉特效没有被保留，但整体的转换效果是“清晰和令人满意的”。

Sora System Card也列出了一些值得关注的细节。
OpenAI官方认为，Sora为能够理解和仿真现实世界的模型提供了基础，将是实现通用人工智能（AGI）的一项重要里程碑。
官方博客中提到，Sora是一种扩散模型，它通过从一段看起来像静态噪声的基础视频开始，逐步去除噪声并转变为最终的视频。通过同时处理多个帧，模型成功解决了一个难题：即使目标暂时脱离视野，也能确保其在视频中始终保持一致。
与 GPT模型类似，Sora采用了 Transformer架构。
Sora使用 DALL·E3中的标注技术，该技术为视觉训练数据生成高度描述性的标签。因此，模型能够更准确地根据用户的文本指令生成视频内容。
除了能够仅通过文本指令生成视频外，Sora还能够从现有的静态图像生成视频，准确地将图像内容进行动画化，并保留细节。
为了确保安全部署 Sora，OpenAI基于 DALL·E在 ChatGPT和 API部署中的安全经验，以及 OpenAI其他产品（如 ChatGPT）的安全防护措施进行了强化。
未经他人许可使用他人肖像，并禁止描绘真实未成年人；
禁止创建非法内容或侵犯知识产权的内容；
禁止生成有害内容，例如未经同意的亲密影像、用于欺凌、骚扰或诽谤的内容，或旨在传播暴力、仇恨或使他人痛苦的内容；
创建并传播用于欺诈、诈骗或误导他人的内容。
所有 Sora生成的视频都带有 C2PA元数据，这些元数据能够标识视频的来源，从而提高透明度，并可用于验证其来源。
与此前凭借真实人像出圈的 Flux不同，Sora们对上传包含人物的内容设定了特别严格的审核标准，目前仅作为试点功能提供给少量早期测试者。

大半年前，初试啼声的 Sora赢得互联网一片喝彩。
然而，如果说一年前尚未还能对着一群演示 demo空喊“现实不存在了”，那么在国内外各类视频模型的轮番洗礼之下，我们早已养刁的胃口很难再被同样的产品打动。
这种态度的转变源于一个简单的事实。当 AI要从“勉强可用”进化到“可堪大用”，用户的期待也随之升维，从“能否做到”跃迁至“做得多好”。
好在 Sora并未在掌声中原地踏步，通过与艺术家的深度合作，他们在工作流程领域做出了显著的改进。Re-cut、Remix、Storyboard等功能都相当实用。
甲乙方的存在决定了工作流中的沟通永远是刚需，AI能做的是让这种沟通更有效率，Sora的价值不在于它能做什么，而在于让创作者得以抽身于技术细节，真正回归创意的本质。
与此同时，上周引发热议的200美元 ChatGPT Pro订阅计划，如今也有了更合理的价格锚点，该计划同样支持无限制访问 Sora，这种产品协同效应预计也将激发出远超预期的应用场景和商业价值。
放眼当下，用户的真金白银从不作假。

可灵 AI交出千万级月流水的亮眼成绩单，这片蓝海的潜力已呼之欲出，对于仍在“烧钱”阶段的 OpenAI来说，Sora预计会成为继 ChatGPT之后的另一个下金蛋的母鸡。
当 Sora从“能用”“好用”，再到“妙用”，或许未来某一天，我们会发现，真正不存在的，不是现实，而是人类创造力的尽头。

		自动登录	找回密码
密码			立即注册